Noise-corrected GRPO: From Noisy Rewards to Unbiased Gradients

作者: Omar El Mansouri, Mohamed El Amine Seddik, Salem Lahlou

分类: cs.LG, cs.AI

发布日期: 2025-10-21 (更新: 2025-10-27)

💡 一句话要点

提出噪声校正GRPO框架，解决RLHF中噪声奖励导致的策略优化偏差问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类反馈 奖励噪声 策略优化 偏差校正 群组策略优化 伯努利噪声

📋 核心要点

RLHF对奖励噪声敏感，现有基于群组的策略优化方法对此类噪声的交互作用研究不足。
将奖励损坏建模为伯努利噪声，通过估计奖励翻转概率进行噪声校正，实现无偏梯度估计。
实验表明，该方法在数学和代码任务上均有提升，尤其是在实际奖励模型条件下。

📝 摘要（中文）

基于人类反馈的强化学习(RLHF)或可验证奖励(RLVR)是校准大型语言模型或构建最新推理模型的标准范式，但它对来自不一致或错误奖励的噪声高度敏感。然而，这种噪声与广泛使用的基于群组的策略优化方法之间的相互作用仍未得到充分探索。我们引入了一种噪声鲁棒的群组相对策略优化(GRPO)和Done Right GRPO (Dr.GRPO)框架，该框架将奖励损坏显式地建模为伯努利噪声。我们的方法在估计奖励翻转概率后应用噪声校正来消除学习信号的偏差，从而产生可证明的无偏梯度估计。理论分析表明，基于群组的方法本质上可以减轻个体层面的噪声，而我们的校正策略则增强了这种鲁棒性。在经验上，我们观察到，当将我们的噪声校正应用于标准奖励模型时，在数学和代码任务中都有一致的改进，在实际奖励模型条件下，数学任务的准确率提高了6.7个百分点，代码任务的准确率提高了1.5个百分点。这项工作将监督学习中的标签噪声校正与现代RLHF联系起来，为嘈杂的现实世界部署提供了理论见解和实用的算法。

🔬 方法详解

问题定义：RLHF和RLVR等方法在训练大型语言模型时，依赖于奖励信号来指导策略优化。然而，这些奖励信号常常受到噪声的影响，例如来自人类反馈的不一致性或奖励模型的错误。这种噪声会导致策略学习产生偏差，降低模型的性能。现有方法未能充分解决噪声奖励对基于群组的策略优化方法的影响。

核心思路：论文的核心思路是将奖励噪声建模为伯努利噪声，即奖励以一定的概率发生翻转。通过估计奖励翻转的概率，可以对奖励信号进行校正，从而消除偏差。此外，论文还指出，基于群组的方法本身就具有一定的抗噪声能力，而提出的校正策略可以进一步增强这种鲁棒性。

技术框架：该框架主要包含以下几个阶段：1) 收集数据：通过与环境交互或使用现有数据集收集训练数据。2) 奖励建模：使用奖励模型对每个样本进行评分，得到奖励信号。3) 噪声估计：估计奖励翻转的概率，即奖励被错误标记的概率。4) 噪声校正：根据估计的翻转概率，对奖励信号进行校正，得到无偏的奖励估计。5) 策略优化：使用校正后的奖励信号，通过基于群组的策略优化方法（如GRPO）更新策略。

关键创新：该论文的关键创新在于将监督学习中的标签噪声校正方法引入到RLHF中，并将其与基于群组的策略优化方法相结合。通过显式地建模和校正奖励噪声，可以有效地消除策略学习的偏差，提高模型的性能。此外，论文还从理论上分析了基于群组的方法的抗噪声能力，并证明了提出的校正策略可以进一步增强这种鲁棒性。

关键设计：论文将奖励噪声建模为伯努利噪声，并使用最大似然估计方法来估计奖励翻转的概率。在策略优化方面，论文采用了Group Relative Policy Optimization (GRPO) 方法，并提出了Done Right GRPO (Dr.GRPO) 变体。具体的损失函数和网络结构细节可能因具体任务而异，但核心思想是使用校正后的奖励信号来指导策略学习。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的噪声校正GRPO框架在数学和代码任务上均取得了显著的性能提升。在实际奖励模型条件下，数学任务的准确率提高了高达6.7个百分点，代码任务的准确率提高了1.5个百分点。这些结果验证了该方法在处理噪声奖励信号方面的有效性。

🎯 应用场景

该研究成果可广泛应用于需要从噪声奖励信号中学习的强化学习任务，例如大型语言模型的对齐、机器人控制、推荐系统等。通过消除奖励噪声带来的偏差，可以提高模型的性能和鲁棒性，使其在实际应用中更加可靠。该方法对于奖励信号质量不高或难以获取准确标签的场景尤为重要。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) or verifiable rewards (RLVR), the standard paradigm for aligning LLMs or building recent SOTA reasoning models, is highly sensitive to noise from inconsistent or erroneous rewards. Yet, the interaction between such noise and widely used group-based policy optimization methods remains underexplored. We introduce a noise-robust Group Relative Policy Optimization (GRPO) and Done Right GRPO (Dr.GRPO) framework that explicitly models reward corruption as Bernoulli noise. Our method applies noise correction after estimating reward flip probabilities to debias the learning signal, yielding provably unbiased gradient estimates. Theoretical analysis shows that group-based methods inherently mitigate individual-level noise, and our correction strategy amplifies this robustness. Empirically, we observe consistent improvements across math and code tasks when applying our noise correction to standard reward model usage, with particular gains of up to 6.7 percentage points in accuracy on math tasks and 1.5 on code tasks under realistic reward model conditions. This work bridges label-noise correction from supervised learning with modern RLHF, offering both theoretical insights and a practical algorithm for noisy real-world deployment.

Noise-corrected GRPO: From Noisy Rewards to Unbiased Gradients

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理