腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
视频
用户
沙龙
专栏
专区
综合排序
丨
最热优先
丨
最新优先
时间不限
解决
GRPO
优势归因错误,Chunk-
GRPO
让文生图模型更懂节奏
GRPO
的问题:不准确的优势归因 要理解Chunk-
GRPO
做了什么,得先搞清楚现有方法的问题出在哪。 步骤级
GRPO
的数学形式 在流匹配的标准
GRPO
中,策略(T2I模型,记为θ)通过最大化目标J(θ)来更新。 Chunk-
GRPO
在这方面表现不错,研究团队把它和基础FLUX.1模型以及标准步骤级Dance-
GRPO
做了对比。 使用清晰的标签,如"基础模型(FLUX.1)"、"标准RL(Dance-
GRPO
)"和"Chunk-
GRPO
"。突出显示Chunk-
GRPO
的获胜分数。 FLUX、DanceGRPO、不带时间动态的Chunk-
GRPO
、带时间动态的Chunk-
GRPO
和带加权采样的Chunk-
GRPO
之间的额外可视化比较。 论文也展示了失败案例。
deephub
2025-11-15
267
0
标签:
基础
论文
模型
优化
测试
强化学习|
GRPO
GSPO SAPO 演进
围绕“解决训练不稳定性、提升样本效率”这一核心目标,从
GRPO
到GSPO再到SAPO的算法进行了持续探索。 】 1,
GRPO
训练瓶颈 • 异策略训练的必要性 在RL训练中为了最大化硬件利用率,提升样本效率,需要采用较大的批次规模。 以上揭示了
GRPO
设计的核心症结:优化目标的单位与奖励的单位不匹配。由于奖励是基于整个序列授予的,在token级别进行异策略校正显然存在根本性缺陷。 2,GSPO 目标函数序列级优化 2.1,对齐奖励与序列级设计 与
GRPO
的token级设计不同,GSPO的核心思路是:让优化单位匹配奖励单位。 总结: 从
GRPO
到GSPO再到SAPO的演进,本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化: 优化粒度升级:
GRPO
(token级)→ GSPO(序列级)→ SAPO(序列级
AI老马
2026-01-18
642
0
标签:
优化
强化学习
模型
设计
效率
DeepSeek
GRPO
:原理及相关技术解析
本文深入探讨了 DeepSeek 提出的组相对策略优化(
GRPO
)算法。 (三)
GRPO
的诞生 为应对上述问题,DeepSeek 提出了
GRPO
算法。 六、
GRPO
的局限性与挑战 (一)奖励函数设计 尽管
GRPO
在算法机制上取得了诸多突破,但奖励函数的设计仍然是一个关键挑战。 七、
GRPO
的实际应用场景 (一)数学推理 DeepSeek-R1 在数学推理任务上取得了令人瞩目的成果,充分展现了
GRPO
算法的强大威力。 (二)代码生成 在代码生成领域,
GRPO
同样发挥着重要作用。通过
GRPO
的训练,模型能够生成更高质量、更符合规范和需求的代码。
用户7353950
2025-06-28
1.9K
0
标签:
DeepSeek
模型
算法
优化
原理
挑战
GRPO
,英伟达提出GDPO,专攻多奖励优化
GRPO
是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,
GRPO
及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 结果显示,在所有设置中,GDPO 都稳定地优于
GRPO
,验证了其在多奖励强化学习优化中的有效性和良好泛化能力。
GRPO
有什么问题? 作者首先重新审视了这种将
GRPO
直接应用于多奖励强化学习优化的常见做法,并发现了一个此前被忽视的问题:
GRPO
本质上会压缩奖励信号,导致优势估计中的信息损失。 近期,Dr.
GRPO
和 DeepSeek-v3.2 采用了
GRPO
的一个变体,移除了标准差归一化项,使得优势直接等于原始奖励减去均值。 作者通过在两种实验设置下比较 GDPO、
GRPO
和「无标准差
GRPO
」产生的不同优势组数量,进一步量化了 GDPO 的有效性,如图 3 所示。
机器之心
2026-01-12
512
0
标签:
模型
优化
强化学习
工具
论文
强化学习系列(十二)--
GRPO
,DAPO,DUPO,GSPO
论文方案
GRPO
的解决方案就是直接去掉了Critic网络。
GRPO
的核心创新思路很简单:直接剔除Critic,启用群体相对优势。PPO中Critic存在主要就是为了计算优势函数,而什么是优势呢? 但是,论文指出在长链推理任务中,使用
GRPO
会遭遇一些问题,比如样本级别的 loss 计算方式、KL 散度限制(在推理时可能不必要)。 论文指出
GRPO
这种方法训练不稳定问题的根本在于:
GRPO
使用 token-level的重要性比率(注意不是token-level的loss和DAPO不要搞混了),但是reward的单位通常是整条 sequence 论文指出
GRPO
在这类模型上极不稳定。 相比
GRPO
的 token-level 可能引入高方差,GSPO 更稳定,尤其在训练大模型例如 MoE 时减少崩塌风险。
languageX
2025-11-23
4.6K
0
标签:
人工智能
深度强化学习
腾讯技术创作特训营S16
强化学习|群组相对策略优化
GRPO
本文围绕
GRPO
主要介绍: 1)经典PPO中四个模型作用以及存在的问题。 2)
GRPO
的主要改进点,公式推导和训练流程。 3)
GRPO
中优势函数的两种计算方式,结果监督和过程监督。 2,
GRPO
分组相对策略优化 2.1,
GRPO
核心创新和训练流程
GRPO
两大核心创新,“分组采样“ 和 “相对奖励基线”: • 用 “分组相对奖励” 替代价值函数:对于每个问题,从旧策略中采样一组输出 2.2,
GRPO
公式推导
GRPO
的策略优化目标函数继承了 PPO 的剪辑机制,避免策略更新幅度过大导致的训练不稳定。
GRPO
直接将 KL 散度作为损失项的一部分,并采用无偏估计器计算 KL 散度,避免了对优势值计算的干扰。公式如下:
GRPO
优势函数 的计算,无需价值函数,仅依赖分组内的相对奖励。
GRPO
的优势函数计算逻辑清晰,能有效引导策略更新。
AI老马
2026-01-18
1.1K
0
标签:
函数
模型
内存
优化
强化学习
冗长响应缩减80%,DeepSeek
GRPO
获得颠覆性改进,微软GFPO问世
在介绍 GFPO 之前,有必要先看看 DeepSeek 提出的组相对策略优化(
GRPO
)。 写成公式的话,如果令 θ 表示模型参数,q 表示问题,o 表示从旧策略 π_θ_old 采样的响应,则
GRPO
目标可以写成: 需要注意的是,尽管这里展示了标准的
GRPO
损失归一化公式,但包括 verl
GRPO
的一个关键限制在于它依赖于单一的标量奖励信号,这使得它难以联合优化多个期望得到的响应属性,例如简洁性和准确度。结果就是,
GRPO
确实能提高准确度,但也会让响应长度大幅增加。 因此,GFPO 的主要干预措施是在优势估计层面,使其可与任何
GRPO
变体兼容,例如 DAPO、Dr.
GRPO
或带有 Dual-Clip PPO 损失的
GRPO
。 发现 9:在最长的响应四分位数中,GFPO 的准确度优于
GRPO
。
机器之心
2025-08-15
763
0
标签:
优化
DeepSeek
模型
算法
效率
机器学习|从0开发大模型之DeepSeek的
GRPO
最近,DeepSeek-R1的发布为国产大模型争光了(太强了),不过
GRPO
算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份: 其次,我们引入了群体相对策略优化(
GRPO
),这是一种近端策略优化(PPO)的变体,旨在增强数学推理能力,同时优化PPO的内存使用。 对比数据 1、什么是
GRPO
GRPO
是一种在线学习算法,核心思想是通过组内相对奖励来估计基线,从而避免使用额外的价值函数模型。 通过在训练期间使用受训模型自身生成的数据来迭代改进,
GRPO
旨在最大化生成补全的优势,同时确保模型保持接近参考策略,下图是论文中的算法流程图:
GRPO
GRPO
是 PPO (Proximal Policy model
GRPO
奖励计算,改成了一个 q 生成多个 r,然后 reward 打分
GRPO
算法流程: 采样一组输出并计算每个输出的奖励 对组内奖励进行归一化处理 使用归一化后的奖励计算优势函数
用户1904552
2025-02-27
948
0
标签:
DeepSeek
机器学习
函数
开发
模型
【大模型后训练学习】DPO与
GRPO
专题学习
为此,Deepseek 团队提出了Group Relative Policy Optimization (
GRPO
),使用多个采样输出的平均奖励。 除此之外,在目标损失中,
GRPO
还修改了KL散度的计算,通过只计算一个采样到的 token就能估计 KL。传统的KL散度计算需要通过计算所有的token,增加优势计算复杂度。
GRPO
代码实现policy_model:当前要更新的 LLM(Decoder-only),带 forward 和 generate_with_logprobsref_model:冻结的 SFT 模型 # [B, L] seq_logprob = token_logprobs.sum(dim=-1) # [B] return seq_logprob2️⃣ 单步
GRPO
单步
GRPO
更新 loss, info =
grpo
_step( policy_model=policy_model, old_policy_model
九年义务漏网鲨鱼
2025-11-24
2.5K
0
标签:
腾讯技术创作特训营S16
AI训练策略:SFT、DPO与
GRPO
技术演进全解析
它对数据的质量要求极高,偏好数据的优劣直接决定了模型对齐的效果
GRPO
: Group Relative Policy Optimization,群组相对策略优化
GRPO
是DeepSeek团队提出的一种更高效的强化学习算法
GRPO
的创新之处在于,它直接抛弃了Critic模型。 训练方式:对于同一个问题,
GRPO
让当前策略模型生成多个不同的回答,构成一个“小组”。
GRPO
:在群体比较中自我提升
GRPO
,即群组相对策略优化,是一种更新、更高效的强化学习算法。DeepSeek-R1模型就是应用此技术的代表。 核心含义:对于同一个问题,
GRPO
让当前模型生成多个不同的回答,形成一个“小组”。 然后,再使用 DPO 或
GRPO
进行第二步的对齐训练,让它的回答更符合人类偏好。
索旭东
2026-03-04
1.5K
0
标签:
强化学习
基础
模型
数据
优化
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档