MC-GRPO: Median-Centered Group Relative Policy Optimization for Small-Rollout Reinforcement Learning

📄 arXiv: 2601.22582v1 📥 PDF

作者: Youngeun Kim

分类: cs.LG, cs.AI

发布日期: 2026-01-30

🔗 代码/项目: GITHUB


💡 一句话要点

MC-GRPO:面向小规模Rollout强化学习的中心化群组相对策略优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 策略优化 小规模Rollout 中位数基线 优势函数 语言模型 资源受限 稳定性

📋 核心要点

  1. 现有群组相对策略优化方法在小规模rollout下,由于均值基线噪声导致优势函数符号翻转,影响训练。
  2. MC-GRPO用中位数代替均值作为基线,降低异常值影响,减少优势函数符号翻转,提升训练稳定性。
  3. 实验表明,MC-GRPO在低rollout情况下显著提升了GRPO系列方法的性能,缩小了不同rollout规模下的性能差距。

📝 摘要(中文)

群组相对策略优化方法通过为每个提示生成多个rollout,并使用共享的均值奖励基线来标准化奖励,从而训练语言模型。在资源受限、rollout预算较小的环境中,准确性通常会降低。我们发现,共享基线中的噪声会导致优势函数符号翻转,即某些rollout会收到错误的优势函数符号,从而导致更新方向反转。为了解决这个问题,我们提出了中心化中位数群组相对策略优化(MC-GRPO),这是一种简单有效的解决方案,适用于小规模rollout训练。我们的主要思想是用中位数基线代替均值基线:中位数对异常奖励的敏感度远低于均值,从而减轻了小rollout规模(G)下的符号翻转。我们生成一个额外的rollout作为中位数参考(G+1),并通过使用群组中位数来计算优势函数。对于奇数大小的群组,恰好有一个completion是中位数,并获得零优势函数,我们将此pivot rollout从反向传播中排除,因此每个提示的梯度贡献样本数仍然为G,从而保留了标准G-rollout训练的核心更新成本。在各种GRPO系列方法以及各种模型和规模中,这种中心化中位数训练始终如一地提高了低rollout状态下的稳定性和最终准确性,从而将G=2和G=8之间的差距缩小到1%以内。

🔬 方法详解

问题定义:论文旨在解决小规模rollout(即每个prompt生成的rollout数量较少)的强化学习场景下,群组相对策略优化(GRPO)方法性能下降的问题。现有GRPO方法使用均值奖励作为基线来计算优势函数,但在小规模rollout情况下,均值容易受到异常值的影响,导致优势函数符号翻转,从而影响策略优化。

核心思路:论文的核心思路是用中位数奖励代替均值奖励作为基线。中位数对异常值的鲁棒性更强,可以有效减少优势函数符号翻转的概率,从而提高小规模rollout下的训练稳定性。

技术框架:MC-GRPO的整体框架与标准的GRPO方法类似,主要区别在于基线的计算方式。对于每个prompt,MC-GRPO生成G+1个rollout,然后计算这G+1个rollout的奖励中位数,作为基线。使用该中位数基线计算每个rollout的优势函数,并用于策略优化。由于中位数本身也是一个rollout,其优势函数为0,因此在反向传播时将其排除,以保证每个prompt的梯度贡献样本数与标准GRPO方法相同。

关键创新:MC-GRPO的关键创新在于使用中位数奖励作为基线,替代了传统的均值奖励基线。这种简单的替换能够显著提高小规模rollout下的训练稳定性,而无需引入额外的计算开销。

关键设计:MC-GRPO的关键设计在于生成G+1个rollout,并排除中位数rollout的反向传播。生成G+1个rollout是为了能够计算中位数,而排除中位数rollout的反向传播是为了保证计算效率。损失函数与标准GRPO方法相同,通常使用PPO或TRPO等策略梯度算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MC-GRPO在各种GRPO系列方法和模型规模下,都能够显著提高小规模rollout的训练性能。例如,在G=2的情况下,MC-GRPO可以将性能提升到接近G=8的水平,从而大大降低了对rollout数量的需求。与使用均值基线的标准GRPO方法相比,MC-GRPO能够更稳定地收敛到更高的性能。

🎯 应用场景

MC-GRPO适用于资源受限的强化学习场景,例如在线学习、机器人控制等。在这些场景下,获取大量的rollout数据成本较高,因此需要使用小规模rollout进行训练。MC-GRPO可以提高这些场景下的训练效率和性能,降低训练成本。该方法还可以应用于语言模型的微调,特别是在计算资源有限的情况下。

📄 摘要(原文)

Group-relative policy optimization methods train language models by generating multiple rollouts per prompt and normalizing rewards with a shared mean reward baseline. In resource-constrained settings where the rollout budget is small, accuracy often degrades. We find that noise in the shared baseline induces advantage sign flips, where some rollouts receive an incorrect advantage sign, and the update direction is reversed. To address this, we propose Median-Centered Group Relative Policy Optimization (MC-GRPO), a simple and effective solution for small-rollout training. Our main idea is to replace the mean baseline with a median baseline: the median is far less sensitive to outlier rewards than the mean, mitigating the sign flips under small rollout size (G). We generate one additional rollout for median reference (G+1), and compute advantages by using the group median. With an odd-sized group, exactly one completion is the median and receives zero advantage, we exclude this pivot rollout from backpropagation so the number of gradient-contributing samples per prompt remains G, preserving the core update cost of standard G-rollout training. Across various GRPO-family methods and a wide range of models and scales, this median-centered training consistently improves stability and final accuracy in the low-rollout regime, reducing the gap between G=2 and G=8 to within 1%. Code is available at https://github.com/lotusroot-kim/MC-GRPO