腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

综合排序丨最热优先丨最新优先

解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏

GRPO的问题:不准确的优势归因要理解Chunk-GRPO做了什么,得先搞清楚现有方法的问题出在哪。步骤级GRPO的数学形式在流匹配的标准GRPO中,策略(T2I模型,记为θ)通过最大化目标J(θ)来更新。 Chunk-GRPO在这方面表现不错,研究团队把它和基础FLUX.1模型以及标准步骤级Dance-GRPO做了对比。使用清晰的标签，如"基础模型(FLUX.1)"、"标准RL(Dance-GRPO)"和"Chunk-GRPO"。突出显示Chunk-GRPO的获胜分数。 FLUX、DanceGRPO、不带时间动态的Chunk-GRPO、带时间动态的Chunk-GRPO和带加权采样的Chunk-GRPO之间的额外可视化比较。论文也展示了失败案例。

2025-11-15

2670

标签:

强化学习｜GRPO GSPO SAPO 演进

围绕“解决训练不稳定性、提升样本效率”这一核心目标，从GRPO到GSPO再到SAPO的算法进行了持续探索。】 1，GRPO训练瓶颈 • 异策略训练的必要性在RL训练中为了最大化硬件利用率，提升样本效率，需要采用较大的批次规模。以上揭示了GRPO设计的核心症结：优化目标的单位与奖励的单位不匹配。由于奖励是基于整个序列授予的，在token级别进行异策略校正显然存在根本性缺陷。 2，GSPO 目标函数序列级优化 2.1，对齐奖励与序列级设计与GRPO的token级设计不同，GSPO的核心思路是：让优化单位匹配奖励单位。总结：从GRPO到GSPO再到SAPO的演进，本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化：优化粒度升级： GRPO（token级）→ GSPO（序列级）→ SAPO（序列级

2026-01-18

6420

标签:

DeepSeek GRPO：原理及相关技术解析

本文深入探讨了 DeepSeek 提出的组相对策略优化（GRPO）算法。（三）GRPO 的诞生为应对上述问题，DeepSeek 提出了 GRPO 算法。六、GRPO 的局限性与挑战（一）奖励函数设计尽管 GRPO 在算法机制上取得了诸多突破，但奖励函数的设计仍然是一个关键挑战。七、GRPO 的实际应用场景（一）数学推理 DeepSeek-R1 在数学推理任务上取得了令人瞩目的成果，充分展现了 GRPO 算法的强大威力。（二）代码生成在代码生成领域，GRPO 同样发挥着重要作用。通过 GRPO 的训练，模型能够生成更高质量、更符合规范和需求的代码。

2025-06-28

1.9K0

标签:

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。结果显示，在所有设置中，GDPO 都稳定地优于 GRPO，验证了其在多奖励强化学习优化中的有效性和良好泛化能力。 GRPO 有什么问题？作者首先重新审视了这种将 GRPO 直接应用于多奖励强化学习优化的常见做法，并发现了一个此前被忽视的问题：GRPO 本质上会压缩奖励信号，导致优势估计中的信息损失。近期，Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一个变体，移除了标准差归一化项，使得优势直接等于原始奖励减去均值。作者通过在两种实验设置下比较 GDPO、GRPO 和「无标准差 GRPO」产生的不同优势组数量，进一步量化了 GDPO 的有效性，如图 3 所示。

2026-01-12

5120

标签:

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

论文方案 GRPO的解决方案就是直接去掉了Critic网络。GRPO的核心创新思路很简单：直接剔除Critic，启用群体相对优势。PPO中Critic存在主要就是为了计算优势函数，而什么是优势呢？但是，论文指出在长链推理任务中，使用 GRPO 会遭遇一些问题，比如样本级别的 loss 计算方式、KL 散度限制（在推理时可能不必要）。论文指出GRPO这种方法训练不稳定问题的根本在于：GRPO 使用 token-level的重要性比率（注意不是token-level的loss和DAPO不要搞混了），但是reward的单位通常是整条 sequence 论文指出 GRPO 在这类模型上极不稳定。相比 GRPO 的 token-level 可能引入高方差，GSPO 更稳定，尤其在训练大模型例如 MoE 时减少崩塌风险。

2025-11-23

4.6K0

标签:

深度强化学习

腾讯技术创作特训营S16

强化学习｜群组相对策略优化GRPO

本文围绕GRPO 主要介绍： 1）经典PPO中四个模型作用以及存在的问题。 2）GRPO的主要改进点，公式推导和训练流程。 3）GRPO中优势函数的两种计算方式，结果监督和过程监督。 2，GRPO 分组相对策略优化 2.1，GRPO核心创新和训练流程 GRPO 两大核心创新，“分组采样“ 和 “相对奖励基线”： • 用 “分组相对奖励” 替代价值函数：对于每个问题，从旧策略中采样一组输出 2.2，GRPO 公式推导 GRPO 的策略优化目标函数继承了 PPO 的剪辑机制，避免策略更新幅度过大导致的训练不稳定。 GRPO 直接将 KL 散度作为损失项的一部分，并采用无偏估计器计算 KL 散度，避免了对优势值计算的干扰。公式如下： GRPO 优势函数的计算，无需价值函数，仅依赖分组内的相对奖励。 GRPO 的优势函数计算逻辑清晰，能有效引导策略更新。

2026-01-18

1.1K0

标签:

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

在介绍 GFPO 之前，有必要先看看 DeepSeek 提出的组相对策略优化（GRPO）。写成公式的话，如果令 θ 表示模型参数，q 表示问题，o 表示从旧策略 π_θ_old 采样的响应，则 GRPO 目标可以写成：需要注意的是，尽管这里展示了标准的 GRPO 损失归一化公式，但包括 verl GRPO 的一个关键限制在于它依赖于单一的标量奖励信号，这使得它难以联合优化多个期望得到的响应属性，例如简洁性和准确度。结果就是，GRPO 确实能提高准确度，但也会让响应长度大幅增加。因此，GFPO 的主要干预措施是在优势估计层面，使其可与任何 GRPO 变体兼容，例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。发现 9：在最长的响应四分位数中，GFPO 的准确度优于 GRPO。

2025-08-15

7630

标签:

机器学习|从0开发大模型之DeepSeek的GRPO

最近，DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：其次，我们引入了群体相对策略优化（GRPO），这是一种近端策略优化（PPO）的变体，旨在增强数学推理能力，同时优化PPO的内存使用。对比数据 1、什么是GRPO GRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图： GRPO GRPO 是 PPO (Proximal Policy model GRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分 GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数

2025-02-27

9480

标签:

【大模型后训练学习】DPO与GRPO专题学习

为此，Deepseek 团队提出了Group Relative Policy Optimization (GRPO)，使用多个采样输出的平均奖励。除此之外，在目标损失中，GRPO还修改了KL散度的计算，通过只计算一个采样到的 token就能估计 KL。传统的KL散度计算需要通过计算所有的token，增加优势计算复杂度。 GRPO 代码实现policy_model：当前要更新的 LLM（Decoder-only），带 forward 和 generate_with_logprobsref_model：冻结的 SFT 模型 # [B, L] seq_logprob = token_logprobs.sum(dim=-1) # [B] return seq_logprob2️⃣ 单步 GRPO 单步 GRPO 更新 loss, info = grpo_step( policy_model=policy_model, old_policy_model

九年义务漏网鲨鱼

2025-11-24

2.5K0

标签:

腾讯技术创作特训营S16

AI训练策略：SFT、DPO与GRPO技术演进全解析

它对数据的质量要求极高，偏好数据的优劣直接决定了模型对齐的效果 GRPO : Group Relative Policy Optimization，群组相对策略优化 GRPO是DeepSeek团队提出的一种更高效的强化学习算法 GRPO的创新之处在于，它直接抛弃了Critic模型。训练方式：对于同一个问题，GRPO让当前策略模型生成多个不同的回答，构成一个“小组”。 GRPO：在群体比较中自我提升 GRPO，即群组相对策略优化，是一种更新、更高效的强化学习算法。DeepSeek-R1模型就是应用此技术的代表。核心含义：对于同一个问题，GRPO让当前模型生成多个不同的回答，形成一个“小组”。然后，再使用 DPO 或 GRPO 进行第二步的对齐训练，让它的回答更符合人类偏好。

2026-03-04

1.5K0

标签: