腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
视频
用户
沙龙
专栏
专区
综合排序
丨
最热优先
丨
最新优先
时间不限
强化学习|GRPO
GSPO
SAPO 演进
2,
GSPO
目标函数序列级优化 2.1,对齐奖励与序列级设计 与GRPO的token级设计不同,
GSPO
的核心思路是:让优化单位匹配奖励单位。
GSPO
的关键创新在于,基于序列似然的重要性比率定义,完全契合重要性采样的基本原理。此外,
GSPO
将归一化奖励计算为同一查询下多个响应的优势值,确保了序列级奖励与优化过程的对齐。
GSPO
算法采用以下序列级优化目标: 其中,
GSPO
采用分组优势估计(group-based advantage estimation): 并基于序列似然定义重要性比率: 这一设计的核心优势在于: 1) 总结: 从GRPO到
GSPO
再到SAPO的演进,本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化: 优化粒度升级: GRPO(token级)→
GSPO
(序列级)→ SAPO(序列级 ”的优化,逐步提升样本效率; 核心目标迭代: 从“解决基本训练可行性”(GRPO→
GSPO
,避免模型崩溃)到“追求更高效率与性能”(
GSPO
→SAPO,提升样本利用率与任务适配性)。
AI老马
2026-01-18
642
0
标签:
优化
强化学习
模型
设计
效率
强化学习系列(十二)--GRPO,DAPO,DUPO,
GSPO
GSPO
(Group Sequence Policy Optimization)
GSPO
:Group Sequence Policy Optimization 论文地址:https://arxiv.org /pdf/2507.18071
GSPO
也是通义实验室提出的论文,WebResearcher 项目采用了
GSPO
的方案。
GSPO
的核心思想主要是: 重要性比率的定义
GSPO
用序列级别的概率来定义重要性比率 (不是 token 级别)。 相比 GRPO 的 token-level 可能引入高方差,
GSPO
更稳定,尤其在训练大模型例如 MoE 时减少崩塌风险。 在复杂问题比如WebReasearch中,也用到
GSPO
提升复杂推理问题的性能和效率。
languageX
2025-11-23
4.6K
0
标签:
人工智能
深度强化学习
腾讯技术创作特训营S16
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
后训练领域里重要的突破是 Qwen3 使用的新方法
GSPO
。 如果说 DAPO 是在 GRPO 框架内做微调,那么
GSPO
则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级。 为此,Qwen 团队将 GRPO 进化为组序列策略优化(Group Sequence Policy Optimization,
GSPO
)。 因此,
GSPO
的损失函数为: GRPO:重要性权重在 token 级,每个 token 都可能被单独裁剪。
GSPO
:重要性权重在 序列级,裁剪时直接作用于整个回答,更符合奖励信号的整体性。 因此,
GSPO
提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。
机器之心
2025-09-02
1.6K
0
标签:
强化学习
函数
模型
数据
优化
每周AI论文速递(250721-250725)
Group Sequence Policy Optimization 序列组策略优化 本文提出序列组策略优化(Group Sequence Policy Optimization,
GSPO
),这是一种稳定 不同于以往采用Token级重要性比例的方法,
GSPO
根据序列似然来定义重要性比例,并进行序列级的裁剪、奖励和优化。 实验表明,相较于GRPO算法,
GSPO
在训练效率和性能上表现更优,能有效稳定混合专家(Mixture-of-Experts,MoE)的强化学习训练过程,同时具备简化强化学习基础设施设计的潜力。
GSPO
的这些优势显著提升了最新Qwen3模型的性能。
叶子的技术碎碎念
2025-07-27
620
0
标签:
强化学习
论文
模型
数据
开源
InternVL3.5-开源多模态视觉大模型王者
在级联强化学习中,我们首先在离线强化学习环境下使用混合偏好优化(MPO)对模型进行微调,然后在在线强化学习环境下使用
GSPO
。
OpenCV学堂
2026-04-02
318
0
标签:
强化学习
模型
效率
性能
开源
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末有大模型微调神器!
这也是后来GRPO、
GSPO
等新算法诞生的重要原因。如果你手头只有几张GPU,还想用PPO+RM跑一套完整RLHF流程,大概率会被现实猛猛教育一下。 SOTA的大厂垂直问答、领域助手、开源模型安全防护、粗对齐、低预算项目如果用一句话给不同类型团队提建议:●大厂/研究机构有工程团队、有算力、有大量标注资源:优先采用PPO+RM,在此基础上再探索GRPO、
GSPO
架构师李哲
2025-12-01
999
0
标签:
AIGC
第四期热点征文-大模型技术
InternVL3.5 - 开源多模态视觉大模型王者
在级联强化学习中,我们首先在离线强化学习环境下使用混合偏好优化(MPO)对模型进行微调,然后在在线强化学习环境下使用
GSPO
。
OpenCV学堂
2026-04-02
364
0
标签:
效率
性能
开源
强化学习
模型
Google开源Tunix:JAX生态的LLM微调方案来了
强化学习:实现了几个主流算法:PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)、还有token级别的
GSPO
deephub
2025-11-15
290
0
标签:
LLM
开源
google
模型
数据
OpenClaw自学习:AReaL 让智能体真正学会
六、支持的算法和模型 算法矩阵 算法 异步/同步 典型应用 GRPO ✅ 数学推理
GSPO
✅ 通用优化 PPO ✅ 经典RL DAPO ✅ 分解异步 LitePPO ✅ 轻量级 所有算法支持异步/
编码如写诗
2026-03-05
990
0
标签:
强化学习
模型
数学
算法
异步
微调大模型,门槛低到离谱
只要 transformers 能跑的,Unsloth 都能加速 强化学习(RL)最高效:GRPO、
GSPO
、DrGRPO、DAPO、PPO、DPO 全部支持,显存比标准方案节省 80%。
Ai学习的老章
2026-03-02
1K
0
标签:
数据
开源
强化学习
量化
模型
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档