Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

📄 arXiv: 2602.18037v1 📥 PDF

作者: Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-02-20

备注: 25 pages, 15 figures


💡 一句话要点

提出梯度正则化方法,解决RLHF和RLVR中奖励函数漏洞利用问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类反馈 奖励函数 梯度正则化 语言模型 奖励漏洞 策略优化

📋 核心要点

  1. 现有RLHF和RLVR方法易受奖励函数漏洞利用,导致模型学习到非预期行为。
  2. 提出梯度正则化(GR)方法,使策略更新偏向奖励函数更精确的区域,提升模型鲁棒性。
  3. 实验表明,GR在RLHF中胜率更高,能有效避免对奖励函数或判决者的攻击。

📝 摘要(中文)

本文针对强化学习从人类反馈(RLHF)或可验证奖励(RLVR)中常见的奖励函数漏洞利用问题,提出了一种新的解决方案。现有方法主要通过KL散度惩罚限制策略更新,本文则另辟蹊径,通过训练语言模型,使策略更新偏向于奖励函数更精确的区域。理论上,奖励模型的准确性与收敛时最优解的平坦性相关。因此,可以使用梯度正则化(GR)来偏置训练,使其进入更平坦的区域,从而保持奖励模型的准确性。实验结果表明,梯度范数与奖励准确性在RLHF中呈正相关。参考重置KL惩罚实际上隐式地使用了GR来寻找具有更高奖励准确性的更平坦区域。进一步提出了显式GR方法,并使用有效的有限差分估计。实验证明,在各种语言模型的强化学习实验中,GR的性能优于KL惩罚。在RLHF中,GR实现了更高的GPT判定的胜率,避免了在基于规则的数学奖励中过度关注格式,并防止了在LLM-as-a-Judge数学任务中对判决者的攻击。

🔬 方法详解

问题定义:在RLHF和RLVR中,奖励函数往往存在不准确性,导致策略学习过程中出现“奖励函数漏洞利用”现象,即模型并非学习到人类期望的行为,而是通过利用奖励函数的缺陷来获得高奖励。现有方法如KL散度惩罚,虽然能限制策略更新幅度,但无法直接保证策略更新到奖励函数更准确的区域。

核心思路:本文的核心思路是,奖励模型的准确性与最优解的平坦性相关。更准确的奖励模型,其最优解周围的梯度变化应该更小,即更平坦。因此,可以通过梯度正则化(GR)来引导策略更新,使其偏向于奖励函数更准确、梯度更平坦的区域,从而提高模型的鲁棒性,避免奖励函数漏洞利用。

技术框架:该方法主要包含以下几个步骤:1) 使用RLHF或RLVR训练语言模型;2) 在训练过程中,计算策略梯度;3) 对策略梯度进行正则化,使其偏向于梯度范数较小的区域;4) 使用正则化后的梯度更新模型参数。整体框架与标准的RLHF/RLVR流程类似,关键在于引入了梯度正则化这一步骤。

关键创新:最重要的创新点在于将奖励函数的准确性与最优解的平坦性联系起来,并提出使用梯度正则化来引导策略更新。与现有方法通过限制策略更新幅度不同,GR直接优化策略更新的方向,使其偏向于奖励函数更准确的区域。此外,论文还证明了参考重置KL惩罚实际上隐式地使用了GR。

关键设计:论文提出了使用有限差分估计来高效计算梯度范数。具体来说,通过在当前策略参数附近进行微小的扰动,计算扰动后的策略梯度,然后使用有限差分公式估计梯度范数。损失函数包含两部分:奖励函数和梯度正则化项。梯度正则化项的目标是最小化策略梯度的范数,从而使策略更新偏向于更平坦的区域。梯度正则化系数是一个重要的超参数,需要根据具体任务进行调整。

📊 实验亮点

实验结果表明,梯度正则化方法在多个RLHF和RLVR任务中优于基线方法(KL散度惩罚)。在RLHF任务中,GR实现了更高的GPT判定的胜率。在基于规则的数学奖励任务中,GR避免了过度关注格式的问题。在LLM-as-a-Judge数学任务中,GR成功防止了对判决者的攻击。这些结果表明,GR能够有效提高模型的鲁棒性,避免奖励函数漏洞利用。

🎯 应用场景

该研究成果可广泛应用于各种需要从人类反馈或可验证奖励中学习的语言模型任务,例如对话系统、文本生成、代码生成等。通过提高模型的鲁棒性,避免奖励函数漏洞利用,可以使模型更好地对齐人类意图,生成更安全、更可靠的内容。该方法还有潜力应用于其他强化学习领域,提升智能体的泛化能力。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) or Verifiable Rewards (RLVR) are two key steps in the post-training of modern Language Models (LMs). A common problem is reward hacking, where the policy may exploit inaccuracies of the reward and learn an unintended behavior. Most previous works address this by limiting the policy update with a Kullback-Leibler (KL) penalty towards a reference model. We propose a different framing: Train the LM in a way that biases policy updates towards regions in which the reward is more accurate. First, we derive a theoretical connection between the accuracy of a reward model and the flatness of an optimum at convergence. Gradient regularization (GR) can then be used to bias training to flatter regions and thereby maintain reward model accuracy. We confirm these results by showing that the gradient norm and reward accuracy are empirically correlated in RLHF. We then show that Reference Resets of the KL penalty implicitly use GR to find flatter regions with higher reward accuracy. We further improve on this by proposing to use explicit GR with an efficient finite-difference estimate. Empirically, GR performs better than a KL penalty across a diverse set of RL experiments with LMs. GR achieves a higher GPT-judged win-rate in RLHF, avoids overly focusing on the format in rule-based math rewards, and prevents hacking the judge in LLM-as-a-Judge math tasks.