RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

深度解析DeepSeek-R1背后的GRPO/GSPO/DAPO等新一代强化学习算法,详解如何通过去除Critic网络将显存占用减半,对比PPO/GRPO/GSPO/DAPO的数学原理与工程实现差异,探讨DeepSeekMath-V2代表的大模型RL后训练从监督学习到自我博弈进化的范式转移。

在 DeepSeek-R1 惊艳亮相之前,行业内曾有一个心照不宣的误区:SFT(监督微调)负责传授知识,而 RLHF(基于人类反馈的强化学习)仅负责价值观对齐。直到今天,仍有很多人认为强化学习(RL)并没有真正让模型学到东西,而是对 SFT 阶段能力的微调和影响。但 R1 用令人咋舌的推理能力证明,强化学习才是解锁大模型深度推理(Reasoning)能力的真正钥匙。模型并非通过模仿人类学会了复杂的数学推导,而是在大规模的自我博弈与试错中“悟”出来的。

但 LLM 的进化道路被一道“显存墙”挡住了。传统的 PPO 算法对于 70B 甚至 1TB 的 MoE 模型而言,简直是资源黑洞。于是,一场关于 RL 后训练算法的“瘦身革命”悄然爆发。从 GRPO 的“去 Critic 化”,到 GSPO 的“维稳”,再到 DAPO 的“效率压榨”,我们正在见证 LLM 训练范式从模仿向探索的代际跃迁。


1 为什么我们要“杀掉” Critic?

在经典的 PPO 架构中,训练不仅仅是优化一个模型,而是维护一个复杂的生态系统。我们需要同时加载四个庞然大物:Actor(演员)负责生成答案,Reward Model(判卷人)负责打分,Reference Model(锚点)负责防止模型跑偏,以及最麻烦的——Critic(评论家)。

Four-Model-Roles-in-RL-Post-Training

Critic 的核心职责是预测当前状态的未来价值 $V(s)$。在传统的强化学习任务中,Critic 至关重要。但在大模型训练的语境下,Critic 变成了一个巨大的累赘。

首先是显存噩梦。Critic 模型通常与 Actor 同等规模。这意味着如果你要训练一个 70B 的模型,仅为了计算梯度,你就需要承载双倍的参数量。对于动辄几百 GB 显存的 MoE 模型,这几乎判了 PPO 的死刑。

其次,也是更本质的问题:在开放域生成任务中,训练一个准确的 Critic 极其困难。 面对无限的文本生成空间,Critic 往往难以准确预测长推理链条末端的价值。一个训练不好的 Critic 不仅不能降低方差,反而会向 Actor 注入大量的噪声梯度,导致模型越练越傻。

既然 Critic 又贵又笨,DeepSeek 等团队提出了一个大胆的假设:我们是否可以完全抛弃价值网络,直接利用统计学规律来估计优势?

2 DeepSeek的时代,GRPO的时代

为了验证“去 Critic”的可行性,工业界演化出了三条主要的技术路线。它们并非凭空出现,而是为了解决前人在工程落地中遇到的具体“坑”而逐步迭代出来的。

2.1 GRPO:DeepSeek 的“减法”哲学

核心逻辑:用“组内相对排名”替代“绝对分数预测”。

DeepSeekMath 和 R1 背后的核心算法是 GRPO。它的直觉非常朴素:在一个复杂的数学推理任务中,与其训练一个 Critic 去预测“这一步能得 0.8 分还是 0.9 分”(这很难且不准),不如直接让模型对同一个问题生成一组(比如 64 个)答案,然后看看谁做得比平均水平好

GRPO-vs-PPO

对于同一个 Prompt,GRPO 会让模型采样生成一组(Group)答案。算法计算这组答案的平均奖励作为基线(Baseline)。凡是得分高于平均值的答案,就获得正向的梯度更新;反之则受到惩罚。

其核心优势函数(Advantage)不再依赖 $V(s)$,而是完全基于组内统计: $$A_i = \frac{r_i - \text{mean}({r_1…r_G})}{\text{std}({r_1…r_G}) + \epsilon}$$

这种方法巧妙地利用了组内统计量替代了 Critic 的价值估计,直接将显存占用减半。它证明了在数理逻辑等有明确判别标准的任务中,相对优势比绝对价值更有效。

算法执行: 1. 对于同一个 Prompt $q$,采样生成 $G$ 个输出 ${o_1, o_2, …, o_G}$。 2. 计算这组输出的奖励 ${r_1, …, r_G}$(通常由规则或轻量级模型给出)。 3. 计算组内平均奖励 $\mu$ 和标准差 $\sigma$。 4. 计算优势(Advantage):$A_i = (r_i - \mu) / (\sigma + \epsilon)$。 5. 更新策略:如果 $A_i > 0$,则提高该输出中所有 Token 的生成概率;反之则降低。

这种方法巧妙地利用了组内统计量作为动态基线(Dynamic Baseline),直接去掉了 Critic 模型,将显存占用减去1/3.

2.2 GSPO:Qwen 的“维稳”改良

核心逻辑:修正 Token 级更新的数学偏差,用“整体主义”拯救 MoE。

当阿里云 Qwen 团队试图将 GRPO 应用于超大规模 MoE(混合专家) 模型(如 Qwen2.5-Math)时,他们遇到了严重的训练稳定性问题。他们发现 GRPO 存在一个隐蔽的数学缺陷:奖励的粒度与更新的粒度不匹配。

在 GRPO 中,我们得到的是整个序列的奖励(这道题做对了吗?),但我们在计算梯度时,是针对每个 Token 单独计算概率比率(Importance Ratio)的。这就好比一个团队拿了奖金,GRPO 简单粗暴地认为每个成员(Token)的贡献是一样的。这种近似在稠密模型(Dense)上还能凑合,但在对噪声极度敏感的 MoE 模型上,会导致梯度的方差极大,极易引发模型崩溃。

GSPO 的改进细节: 不再纠结于单个 Token 的得失,而是将优化的视角拉高到了 整个序列(Sequence) 层级。

  • 序列级重要性采样(Sequence-Level IS): GSPO 计算的是整个生成序列的联合概率比率,而不是单个 Token 比率的平均值。 $$\rho_{seq} = \frac{P_{\text{new}}(\text{整个句子})}{P_{\text{old}}(\text{整个句子})} = \prod_{t=1}^T \frac{\pi_\theta(y_t | y_{<t}, x)}{\pi_{\theta_{old}}(y_t | y_{<t}, x)}$$
  • 整体截断: 它根据这个 $\rho_{seq}$ 对整个序列的更新幅度进行截断(Clip)。这意味着,模型要么“全盘接受”这个序列的更新信号,要么“全盘拒绝”,保证了更新方向的一致性。

这种“整体主义”的策略,从数学上消除了 Credit Assignment(信用分配)带来的噪声,是目前在大规模集群上训练 MoE 模型的一种稳健方案。

2.3 DAPO:字节系的“效率”压榨

核心逻辑:打破 PPO 的对称性束缚,只在“纠结区”做功。

字节跳动 Seed 团队提出的 DAPO 并不满足于仅仅“跑通”训练,他们更关注样本效率策略多样性。他们发现了传统算法的两个低效之处:

  1. PPO 的截断太保守:PPO 默认将更新幅度限制在 $[1-\epsilon, 1+\epsilon]$(例如 0.8 到 1.2 倍)。这对称地限制了变好和变坏的幅度。
  2. 简单样本浪费算力:如果一组 Prompt 模型全做对了,或者全做错了,梯度信息量其实很低,继续训练就是浪费。

DAPO 针对这两点进行了外科手术式的改良:

  • 解耦截断(Asymmetric Clip)—— 鼓励天才的灵光一现: DAPO 认为,“变好”和“变坏”的风险是不对等的。

    • 如果模型发现了一条前所未有的高分路径($A > 0$),这是一次宝贵的探索(Exploration),我们不应该死板地限制在 1.2 倍。DAPO 引入了一个更大的上限 $\delta$(比如允许更新到 1.5 倍或更高)。
    • 如果模型表现变差了($A < 0$),则依然严格限制下限,防止模型崩溃。 这种非对称设计(Clip-Higher)有效地缓解了 RL 训练后期的“熵坍塌”问题,保持了模型的多样性。
  • 动态采样(Dynamic Sampling)—— 拒绝无效刷题: DAPO 会实时监控每个 Prompt 组的准确率分布。

    • 全对 ($Acc=1$)全错 ($Acc=0$) 的组,其组内方差为 0,优势函数 $A_i$ 趋近于 0,提供的梯度几乎无效。DAPO 会自动降低这些样本的采样权重。
    • 算法将算力集中在 $0 < Acc < 1$ 的“纠结区”。这些是模型“努努力能做对,但不小心会做错”的认知边界,训练性价比最高。

配合动态采样机制(自动剔除全对或全错的简单样本),DAPO 在 AIME 等评测中证明了:在数学上打破对称性,并配合高质量的采样策略,比单纯的数据堆叠更重要。

3 数学本质与前沿变体

在表面上,它们都是为了让模型得分更高,但在数学本质上,它们处理的是 策略梯度(Policy Gradient)中“优势函数(Advantage)”估计的偏差与方差权衡

所有 PPO 类算法的目标函数都可以抽象为: $$L(\theta) = \mathbb{E} \left[ \min(r_t(\theta) \cdot A_t, \text{clip}(r_t(\theta)) \cdot A_t) \right]$$ 其中 $r_t$ 是新旧策略的概率比率,$A_t$ 是优势函数。三大算法的“手术刀”动在不同的位置:

维度 PPO (传统) GRPO (DeepSeek) GSPO (Qwen) DAPO (ByteDance)
优势 $A_t$ 来源 价值网络
$A = R - V(s)$
(需训练 Critic)
组内统计
$A = (R - \mu) / \sigma$
(无需 Critic)
组内统计
同 GRPO
组内统计
同 GRPO
比率 $r_t$ 粒度 Token 级
逐词更新
Token 级
原始版存在偏差
Sequence 级
全序列统一权重
Token 级 + 修正
动态调整 Clip 边界
核心数学假设 $V(s)$ 能预测未来 组内方差代表真实方差 序列奖励不可拆分 非对称的更新更高效

如果我们剥开这三个算法的工程外衣,会发现它们在本质上都在解决同一个核心问题:如何在没有 Value Function 的情况下,低方差地估计策略梯度。

它们共享一个根本性的数学假设:蒙特卡洛采样均值可以替代价值网络估计。 但在如何处理方差基线估计上,一些变体给出了更精彩的答案:

  • Dr. GRPO (GRPO Done Right)

    • 问题:GRPO 原文中使用标准差 $\sigma$ 进行归一化。当 Group Size 较小或模型收敛到单一模式时,$\sigma \rightarrow 0$,导致分母极小,Advantage 数值爆炸。
    • 解法:Dr. GRPO 建议放弃标准差归一化,转而使用 分位数归一化 或简单的 常数归一化。这让小 Batch Size 的训练更加安全,防止了训练后期的数值不稳定。
  • RLOO (Reinforce Leave-One-Out)

    • 问题:GRPO 使用全组均值(包括自身)作为 Baseline,这在统计学上是有轻微偏差的。
    • 解法:RLOO 采用“留一法”估计基线。对于第 $i$ 个样本,Baseline 是除了它自己之外的所有样本均值: $$Baseline_i = \frac{1}{G-1} \sum_{j \neq i} r_j$$
    • 意义:这是一个无偏估计量(Unbiased Estimator)。虽然计算复杂度不变,但在数学上更严谨,目前在 HuggingFace TRL 库中,RLOO 往往比原始 GRPO 收敛得更快更稳。
  • ReMax (Reward Maximization)

    • 问题:如果显存连 Group Sampling 都跑不动怎么办?
    • 解法:ReMax 返璞归真,使用 Greedy Baseline。它不进行随机采样,而是拿模型贪婪解码(Greedy Decoding)生成的那个结果作为基线。比贪婪解码好的才奖励,差的就惩罚。它是 GRPO 的极简特例(可以理解为 Group Size=2 的变体),被称为“穷鬼的 GRPO”,适合资源极度受限的场景。但实际上,ReMax 要比GRPO更早提出可以去除Critic这个理念。

4 授人以鱼不如授人以渔

如果说 GRPO (DeepSeekMath-V1) 解决了“没有 Critic 怎么办”的问题,那么昨天发布的 DeepSeekMath-V2 则回答了“RL 的下一步去向何方”。我们清晰地看到 RL 后训练正在经历一次深刻的范式转移:从“价值预测(Value Prediction)”转向“自主过程验证(Self Process Verification)”,即这种过程验证,在一定程度上是可以由模型自己完成的。

通俗一点说,PPO 类算法是引入一个Critic老师来评估模型的训练过程,老师只告诉你现在做的对不对、好不好,怎么改你自己看着办; GRPO 类算法则是通过模型自己跟“同学”比,自评做得好不好,怎么改还是自己看着办;但 DeepSeekMath-V2 则是给模型请了个家教 (Verifier),又请了个老师(Meta-Verifier)来监督这个家教,做两件事:1. 给模型提供过程奖励,告诉他每一步对错与否 2.培养他自己判断每一步是否正确,并在自己输出最终答案前调整; 这相当于是把老师揣摩多年的出题人评分标准交给模型了。

Critic 的消亡几乎已成定局。在一个长达数百步的 Chain-of-Thought 推理中,指望一个神经网络精准预测最终答案的价值是不现实的。但是,DeepSeek 引入的 Generator-Verifier 双模型架构揭示了新的可能。

现在的 RL 不再是单纯的“跑分比赛”,而是演变成了一种生成者与验证者的博弈。Verifier 不再像 Critic 那样试图预测未来,而是扮演“助教”的角色,对 Generator 的每一步推理进行 Step-by-step 的逻辑检查。这种 Process Reward(过程奖励) 提供的信号比稀疏的最终结果奖励要丰富得多。

这意味着,未来的训练架构将演变为 Self-Verification Loop(自我验证循环)。模型不仅是创作者,更是自己的审查者。通过 Verifier 指导 Actor 模型能力提升,Actor 也会反哺 Verifier 提高其鉴别能力,从而实现模型能力的进化。

5 结语

RL 后训练的战场已经变了。仅仅一年前,我们还在纠结 PPO 的超参数微调。现在,我们已经扔掉了 Critic,开始在 Sequence Level 上重构算法,甚至引入了专门的 Verifier 模型。

在2025年,我们看到了GRPO一族算法的爆发,产生了各类变体: GRPO 的极简主义,GSPO 的工程维稳,RLOO/DAPO 的数学修正… 在2026年,我们也许会看到许多自验证优化算法(Self-Verify Policy Optimization),就让我们拭目以待,看看一年后能有多少 S*PO 算法吧。

但无论如何,它们都在指向同一个终局:依靠人工标注 SFT 的时代已成过去,模型自我博弈、自我进化的 RL 时代已经全面到来。


6 参考

  1. GRPO (Group Relative Policy Optimization)
    DeepSeek. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948, 2025.
    https://arxiv.org/abs/2501.12948

  2. GSPO (Group Sequence Policy Optimization)
    Qwen Team. “Group Sequence Policy Optimization for Large-Scale Alignment.” arXiv:2507.18071, 2025.
    https://arxiv.org/abs/2507.18071

  3. DAPO (Dynamic Asymmetric Policy Optimization)
    ByteDance Seed Team. “DAPO: An Open-Source LLM Reinforcement Learning System at Scale.” arXiv:2503.14476, 2025.
    https://arxiv.org/abs/2503.14476

  4. Dr. GRPO (GRPO Done Right)
    Anonymous. “Understanding R1-Zero-Like Training: A Critical Perspective on GRPO Instability.” arXiv:2503.20783, 2025.
    https://arxiv.org/abs/2503.20783

  5. RLOO (Reinforce Leave-One-Out)
    Dong et al. “Revisiting REINFORCE-Style Optimization for Learning from Human Feedback.” arXiv:2402.14740, 2024.
    https://arxiv.org/abs/2402.14740

  6. ReMax (Reward Maximization with Greedy Baseline)
    Park et al. “ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning LLMs.” arXiv:2310.10505, 2023.
    https://arxiv.org/abs/2310.10505

  7. Generator-Verifier Architecture & Process Reward (DeepSeekMath-V2)
    DeepSeek Team. “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning.” Technical Report, 2025-11-26.
    https://huggingface.co/deepseek-ai/DeepSeekMath-V2/technical-report

  8. Self-Verification Loop
    Li et al. “Trust, But Verify: A Self-Verification Approach to Reinforcement Learning from Human Feedback.” arXiv:2505.13445, 2025.
    https://arxiv.org/abs/2505.13445

AI声明:首图由Gemini创建;观点与思考来自作者,整理与编写来自Gemini-3-Pro-Preview;作者对本文内容负责;

Buy me a coffee~
Tim 支付宝支付宝
Tim 贝宝贝宝
Tim 微信微信
0%