RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

2025-11-28 2025-11-28 约 5200 字预计阅读 11 分钟 - 次阅读

深度解析DeepSeek-R1背后的GRPO/GSPO/DAPO等新一代强化学习算法，详解如何通过去除Critic网络将显存占用减半，对比PPO/GRPO/GSPO/DAPO的数学原理与工程实现差异，探讨DeepSeekMath-V2代表的大模型RL后训练从监督学习到自我博弈进化的范式转移。

在 DeepSeek-R1 惊艳亮相之前，行业内曾有一个心照不宣的误区：SFT（监督微调）负责传授知识，而 RLHF（基于人类反馈的强化学习）仅负责价值观对齐。直到今天，仍有很多人认为强化学习(RL)并没有真正让模型学到东西，而是对 SFT 阶段能力的微调和影响。但 R1 用令人咋舌的推理能力证明，强化学习才是解锁大模型深度推理（Reasoning）能力的真正钥匙。模型并非通过模仿人类学会了复杂的数学推导，而是在大规模的自我博弈与试错中“悟”出来的。

但 LLM 的进化道路被一道“显存墙”挡住了。传统的 PPO 算法对于 70B 甚至 1TB 的 MoE 模型而言，简直是资源黑洞。于是，一场关于 RL 后训练算法的“瘦身革命”悄然爆发。从 GRPO 的“去 Critic 化”，到 GSPO 的“维稳”，再到 DAPO 的“效率压榨”，我们正在见证 LLM 训练范式从模仿向探索的代际跃迁。

1 为什么我们要“杀掉” Critic？

在经典的 PPO 架构中，训练不仅仅是优化一个模型，而是维护一个复杂的生态系统。我们需要同时加载四个庞然大物：Actor（演员）负责生成答案，Reward Model（判卷人）负责打分，Reference Model（锚点）负责防止模型跑偏，以及最麻烦的——Critic（评论家）。

Four-Model-Roles-in-RL-Post-Training

Critic 的核心职责是预测当前状态的未来价值 $V(s)$。在传统的强化学习任务中，Critic 至关重要。但在大模型训练的语境下，Critic 变成了一个巨大的累赘。

首先是显存噩梦。Critic 模型通常与 Actor 同等规模。这意味着如果你要训练一个 70B 的模型，仅为了计算梯度，你就需要承载双倍的参数量。对于动辄几百 GB 显存的 MoE 模型，这几乎判了 PPO 的死刑。

其次，也是更本质的问题：在开放域生成任务中，训练一个准确的 Critic 极其困难。 面对无限的文本生成空间，Critic 往往难以准确预测长推理链条末端的价值。一个训练不好的 Critic 不仅不能降低方差，反而会向 Actor 注入大量的噪声梯度，导致模型越练越傻。

既然 Critic 又贵又笨，DeepSeek 等团队提出了一个大胆的假设：我们是否可以完全抛弃价值网络，直接利用统计学规律来估计优势？

2 DeepSeek的时代，GRPO的时代

为了验证“去 Critic”的可行性，工业界演化出了三条主要的技术路线。它们并非凭空出现，而是为了解决前人在工程落地中遇到的具体“坑”而逐步迭代出来的。

2.1 GRPO：DeepSeek 的“减法”哲学

核心逻辑：用“组内相对排名”替代“绝对分数预测”。

DeepSeekMath 和 R1 背后的核心算法是 GRPO。它的直觉非常朴素：在一个复杂的数学推理任务中，与其训练一个 Critic 去预测“这一步能得 0.8 分还是 0.9 分”（这很难且不准），不如直接让模型对同一个问题生成一组（比如 64 个）答案，然后看看谁做得比平均水平好。

GRPO-vs-PPO

对于同一个 Prompt，GRPO 会让模型采样生成一组（Group）答案。算法计算这组答案的平均奖励作为基线（Baseline）。凡是得分高于平均值的答案，就获得正向的梯度更新；反之则受到惩罚。

其核心优势函数（Advantage）不再依赖 $V(s)$，而是完全基于组内统计： $$A_i = \frac{r_i - \text{mean}({r_1…r_G})}{\text{std}({r_1…r_G}) + \epsilon}$$

这种方法巧妙地利用了组内统计量替代了 Critic 的价值估计，直接将显存占用减半。它证明了在数理逻辑等有明确判别标准的任务中，相对优势比绝对价值更有效。

算法执行： 1. 对于同一个 Prompt $q$，采样生成 $G$ 个输出 ${o_1, o_2, …, o_G}$。 2. 计算这组输出的奖励 ${r_1, …, r_G}$（通常由规则或轻量级模型给出）。 3. 计算组内平均奖励 $\mu$ 和标准差 $\sigma$。 4. 计算优势（Advantage）：$A_i = (r_i - \mu) / (\sigma + \epsilon)$。 5. 更新策略：如果 $A_i > 0$，则提高该输出中所有 Token 的生成概率；反之则降低。

这种方法巧妙地利用了组内统计量作为动态基线（Dynamic Baseline），直接去掉了 Critic 模型，将显存占用减去1/3.

2.2 GSPO：Qwen 的“维稳”改良

核心逻辑：修正 Token 级更新的数学偏差，用“整体主义”拯救 MoE。

当阿里云 Qwen 团队试图将 GRPO 应用于超大规模 MoE（混合专家） 模型（如 Qwen2.5-Math）时，他们遇到了严重的训练稳定性问题。他们发现 GRPO 存在一个隐蔽的数学缺陷：奖励的粒度与更新的粒度不匹配。

在 GRPO 中，我们得到的是整个序列的奖励（这道题做对了吗？），但我们在计算梯度时，是针对每个 Token 单独计算概率比率（Importance Ratio）的。这就好比一个团队拿了奖金，GRPO 简单粗暴地认为每个成员（Token）的贡献是一样的。这种近似在稠密模型（Dense）上还能凑合，但在对噪声极度敏感的 MoE 模型上，会导致梯度的方差极大，极易引发模型崩溃。

GSPO 的改进细节：不再纠结于单个 Token 的得失，而是将优化的视角拉高到了 整个序列（Sequence） 层级。

序列级重要性采样（Sequence-Level IS）： GSPO 计算的是整个生成序列的联合概率比率，而不是单个 Token 比率的平均值。 $$\rho_{seq} = \frac{P_{\text{new}}(\text{整个句子})}{P_{\text{old}}(\text{整个句子})} = \prod_{t=1}^T \frac{\pi_\theta(y_t | y_{<t}, x)}{\pi_{\theta_{old}}(y_t | y_{<t}, x)}$$
整体截断：它根据这个 $\rho_{seq}$ 对整个序列的更新幅度进行截断（Clip）。这意味着，模型要么“全盘接受”这个序列的更新信号，要么“全盘拒绝”，保证了更新方向的一致性。

这种“整体主义”的策略，从数学上消除了 Credit Assignment（信用分配）带来的噪声，是目前在大规模集群上训练 MoE 模型的一种稳健方案。

2.3 DAPO：字节系的“效率”压榨

核心逻辑：打破 PPO 的对称性束缚，只在“纠结区”做功。

字节跳动 Seed 团队提出的 DAPO 并不满足于仅仅“跑通”训练，他们更关注样本效率和策略多样性。他们发现了传统算法的两个低效之处：

PPO 的截断太保守：PPO 默认将更新幅度限制在 $[1-\epsilon, 1+\epsilon]$（例如 0.8 到 1.2 倍）。这对称地限制了变好和变坏的幅度。
简单样本浪费算力：如果一组 Prompt 模型全做对了，或者全做错了，梯度信息量其实很低，继续训练就是浪费。

DAPO 针对这两点进行了外科手术式的改良：

解耦截断（Asymmetric Clip）—— 鼓励天才的灵光一现： DAPO 认为，“变好”和“变坏”的风险是不对等的。
- 如果模型发现了一条前所未有的高分路径（$A > 0$），这是一次宝贵的探索（Exploration），我们不应该死板地限制在 1.2 倍。DAPO 引入了一个更大的上限 $\delta$（比如允许更新到 1.5 倍或更高）。
- 如果模型表现变差了（$A < 0$），则依然严格限制下限，防止模型崩溃。这种非对称设计（Clip-Higher）有效地缓解了 RL 训练后期的“熵坍塌”问题，保持了模型的多样性。
动态采样（Dynamic Sampling）—— 拒绝无效刷题： DAPO 会实时监控每个 Prompt 组的准确率分布。
- 全对 ($Acc=1$) 或 全错 ($Acc=0$) 的组，其组内方差为 0，优势函数 $A_i$ 趋近于 0，提供的梯度几乎无效。DAPO 会自动降低这些样本的采样权重。
- 算法将算力集中在 $0 < Acc < 1$ 的“纠结区”。这些是模型“努努力能做对，但不小心会做错”的认知边界，训练性价比最高。

配合动态采样机制（自动剔除全对或全错的简单样本），DAPO 在 AIME 等评测中证明了：在数学上打破对称性，并配合高质量的采样策略，比单纯的数据堆叠更重要。

3 数学本质与前沿变体

在表面上，它们都是为了让模型得分更高，但在数学本质上，它们处理的是 策略梯度（Policy Gradient）中“优势函数（Advantage）”估计的偏差与方差权衡。

所有 PPO 类算法的目标函数都可以抽象为： $$L(\theta) = \mathbb{E} \left[ \min(r_t(\theta) \cdot A_t, \text{clip}(r_t(\theta)) \cdot A_t) \right]$$ 其中 $r_t$ 是新旧策略的概率比率，$A_t$ 是优势函数。三大算法的“手术刀”动在不同的位置：

维度	PPO (传统)	GRPO (DeepSeek)	GSPO (Qwen)	DAPO (ByteDance)
优势 $A_t$ 来源	价值网络 $A = R - V(s)$ (需训练 Critic)	组内统计 $A = (R - \mu) / \sigma$ (无需 Critic)	组内统计同 GRPO	组内统计同 GRPO
比率 $r_t$ 粒度	Token 级逐词更新	Token 级原始版存在偏差	Sequence 级全序列统一权重	Token 级 + 修正动态调整 Clip 边界
核心数学假设	$V(s)$ 能预测未来	组内方差代表真实方差	序列奖励不可拆分	非对称的更新更高效

如果我们剥开这三个算法的工程外衣，会发现它们在本质上都在解决同一个核心问题：如何在没有 Value Function 的情况下，低方差地估计策略梯度。

它们共享一个根本性的数学假设：蒙特卡洛采样均值可以替代价值网络估计。 但在如何处理方差和基线估计上，一些变体给出了更精彩的答案：

Dr. GRPO (GRPO Done Right)
- 问题：GRPO 原文中使用标准差 $\sigma$ 进行归一化。当 Group Size 较小或模型收敛到单一模式时，$\sigma \rightarrow 0$，导致分母极小，Advantage 数值爆炸。
- 解法：Dr. GRPO 建议放弃标准差归一化，转而使用 分位数归一化 或简单的 常数归一化。这让小 Batch Size 的训练更加安全，防止了训练后期的数值不稳定。
RLOO (Reinforce Leave-One-Out)
- 问题：GRPO 使用全组均值（包括自身）作为 Baseline，这在统计学上是有轻微偏差的。
- 解法：RLOO 采用“留一法”估计基线。对于第 $i$ 个样本，Baseline 是除了它自己之外的所有样本均值： $$Baseline_i = \frac{1}{G-1} \sum_{j \neq i} r_j$$
- 意义：这是一个无偏估计量（Unbiased Estimator）。虽然计算复杂度不变，但在数学上更严谨，目前在 HuggingFace TRL 库中，RLOO 往往比原始 GRPO 收敛得更快更稳。
ReMax (Reward Maximization)
- 问题：如果显存连 Group Sampling 都跑不动怎么办？
- 解法：ReMax 返璞归真，使用 Greedy Baseline。它不进行随机采样，而是拿模型贪婪解码（Greedy Decoding）生成的那个结果作为基线。比贪婪解码好的才奖励，差的就惩罚。它是 GRPO 的极简特例（可以理解为 Group Size=2 的变体），被称为“穷鬼的 GRPO”，适合资源极度受限的场景。但实际上，ReMax 要比GRPO更早提出可以去除Critic这个理念。

4 授人以鱼不如授人以渔

如果说 GRPO (DeepSeekMath-V1) 解决了“没有 Critic 怎么办”的问题，那么昨天发布的 DeepSeekMath-V2 则回答了“RL 的下一步去向何方”。我们清晰地看到 RL 后训练正在经历一次深刻的范式转移：从“价值预测（Value Prediction）”转向“自主过程验证（Self Process Verification）”，即这种过程验证，在一定程度上是可以由模型自己完成的。

通俗一点说，PPO 类算法是引入一个Critic老师来评估模型的训练过程，老师只告诉你现在做的对不对、好不好，怎么改你自己看着办； GRPO 类算法则是通过模型自己跟“同学”比，自评做得好不好，怎么改还是自己看着办；但 DeepSeekMath-V2 则是给模型请了个家教 (Verifier)，又请了个老师(Meta-Verifier)来监督这个家教，做两件事：1. 给模型提供过程奖励，告诉他每一步对错与否 2.培养他自己判断每一步是否正确，并在自己输出最终答案前调整；这相当于是把老师揣摩多年的出题人评分标准交给模型了。

Critic 的消亡几乎已成定局。在一个长达数百步的 Chain-of-Thought 推理中，指望一个神经网络精准预测最终答案的价值是不现实的。但是，DeepSeek 引入的 Generator-Verifier 双模型架构揭示了新的可能。

现在的 RL 不再是单纯的“跑分比赛”，而是演变成了一种生成者与验证者的博弈。Verifier 不再像 Critic 那样试图预测未来，而是扮演“助教”的角色，对 Generator 的每一步推理进行 Step-by-step 的逻辑检查。这种 Process Reward（过程奖励） 提供的信号比稀疏的最终结果奖励要丰富得多。

这意味着，未来的训练架构将演变为 Self-Verification Loop（自我验证循环）。模型不仅是创作者，更是自己的审查者。通过 Verifier 指导 Actor 模型能力提升，Actor 也会反哺 Verifier 提高其鉴别能力，从而实现模型能力的进化。

5 结语

RL 后训练的战场已经变了。仅仅一年前，我们还在纠结 PPO 的超参数微调。现在，我们已经扔掉了 Critic，开始在 Sequence Level 上重构算法，甚至引入了专门的 Verifier 模型。

在2025年，我们看到了GRPO一族算法的爆发，产生了各类变体: GRPO 的极简主义，GSPO 的工程维稳，RLOO/DAPO 的数学修正… 在2026年，我们也许会看到许多自验证优化算法(Self-Verify Policy Optimization)，就让我们拭目以待，看看一年后能有多少 S*PO 算法吧。

但无论如何，它们都在指向同一个终局：依靠人工标注 SFT 的时代已成过去，模型自我博弈、自我进化的 RL 时代已经全面到来。

6 参考

GRPO (Group Relative Policy Optimization)
DeepSeek. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948, 2025.
https://arxiv.org/abs/2501.12948
GSPO (Group Sequence Policy Optimization)
Qwen Team. “Group Sequence Policy Optimization for Large-Scale Alignment.” arXiv:2507.18071, 2025.
https://arxiv.org/abs/2507.18071
DAPO (Dynamic Asymmetric Policy Optimization)
ByteDance Seed Team. “DAPO: An Open-Source LLM Reinforcement Learning System at Scale.” arXiv:2503.14476, 2025.
https://arxiv.org/abs/2503.14476
Dr. GRPO (GRPO Done Right)
Anonymous. “Understanding R1-Zero-Like Training: A Critical Perspective on GRPO Instability.” arXiv:2503.20783, 2025.
https://arxiv.org/abs/2503.20783
RLOO (Reinforce Leave-One-Out)
Dong et al. “Revisiting REINFORCE-Style Optimization for Learning from Human Feedback.” arXiv:2402.14740, 2024.
https://arxiv.org/abs/2402.14740
ReMax (Reward Maximization with Greedy Baseline)
Park et al. “ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning LLMs.” arXiv:2310.10505, 2023.
https://arxiv.org/abs/2310.10505
Generator-Verifier Architecture & Process Reward (DeepSeekMath-V2)
DeepSeek Team. “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning.” Technical Report, 2025-11-26.
https://huggingface.co/deepseek-ai/DeepSeekMath-V2/technical-report
Self-Verification Loop
Li et al. “Trust, But Verify: A Self-Verification Approach to Reinforcement Learning from Human Feedback.” arXiv:2505.13445, 2025.
https://arxiv.org/abs/2505.13445

AI声明：首图由Gemini创建；观点与思考来自作者，整理与编写来自Gemini-3-Pro-Preview；作者对本文内容负责；

Buy me a coffee~

赞赏

支付宝

贝宝

微信