On the Robustness of Reward Models for Language Model Alignment

作者: Jiwoo Hong, Noah Lee, Eunki Kim, Guijin Son, Woojin Chung, Aman Gupta, Shao Tang, James Thorne

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-12

备注: ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出批量归零正则化以解决奖励模型的过度优化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 奖励模型 强化学习 人类反馈 鲁棒性 正则化 模型对齐 偏好预测

📋 核心要点

现有的BT模型在奖励建模中存在过度优化问题，导致模型对未见数据的泛化能力下降。
本文提出批量归零正则化（BSR），通过强制每批次奖励和为零来解决过度优化问题。
实验结果显示，BSR显著提高了RMs的鲁棒性，并在复杂偏好预测任务中超越了现有最优模型5%以上。

📝 摘要（中文）

Bradley-Terry (BT) 模型在基于人类反馈的强化学习（RLHF）中被广泛应用于奖励建模。尽管其有效性显著，但使用BT模型损失训练的奖励模型（RMs）容易出现过度优化，导致对未见输入分布的泛化能力下降。本文研究了RM训练中过度优化的原因及其对RLHF过程的影响，强调了RMs在未见数据中的分布鲁棒性的重要性。我们发现隐藏状态范数的过度分散是过度优化的主要来源，并提出了批量归零正则化（BSR）以强制每批次的奖励和为零，从而限制极端幅度的奖励。通过四种过度优化场景评估BSR的影响，结果表明BSR在提高RMs的鲁棒性方面表现出色。

🔬 方法详解

问题定义：本文旨在解决奖励模型（RMs）在基于人类反馈的强化学习（RLHF）中因过度优化而导致的泛化能力下降问题。现有的BT模型损失训练的RMs在面对未见输入分布时表现不佳，影响了RLHF的效果。

核心思路：论文提出的核心思路是通过批量归零正则化（BSR）来限制奖励的极端幅度，从而减少过度优化现象。通过强制每批次的奖励和为零，BSR能够有效控制隐藏状态范数的分散程度。

技术框架：整体架构包括数据预处理、BSR正则化应用、模型训练和评估四个主要模块。在训练过程中，BSR被应用于每个批次的奖励计算，以确保其和为零。

关键创新：最重要的技术创新点在于提出了BSR这一新型正则化方法，它与传统的BT模型损失相比，能够有效提高RMs的鲁棒性，特别是在面对未见数据时。

关键设计：在BSR的实现中，关键设计包括对每个批次的奖励进行归零处理，以及对隐藏状态范数的监控和调整。这些设计确保了模型在训练过程中的稳定性和鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用BSR的RMs在RLHF训练中能够更好地对齐政策与黄金偏好模型。此外，在8B规模的高质量数据和模型上，BSR方法在复杂偏好预测任务中提升了超过5%的性能，并且在RLOO训练中减少了生成长度40%，同时提高了7%的胜率。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、推荐系统和人机交互等。通过提高奖励模型的鲁棒性，能够增强RLHF训练的效果，从而提升智能系统在复杂任务中的表现，具有重要的实际价值和未来影响。

📄 摘要（原文）

The Bradley-Terry (BT) model is widely practiced in reward modeling for reinforcement learning with human feedback (RLHF). Despite its effectiveness, reward models (RMs) trained with BT model loss are prone to over-optimization, losing generalizability to unseen input distributions. In this paper, we study the cause of over-optimization in RM training and its downstream effects on the RLHF procedure, accentuating the importance of distributional robustness of RMs in unseen data. First, we show that the excessive dispersion of hidden state norms is the main source of over-optimization. Then, we propose batch-wise sum-to-zero regularization (BSR) to enforce zero-centered reward sum per batch, constraining the rewards with extreme magnitudes. We assess the impact of BSR in improving robustness in RMs through four scenarios of over-optimization, where BSR consistently manifests better robustness. Subsequently, we compare the plain BT model and BSR on RLHF training and empirically show that robust RMs better align the policy to the gold preference model. Finally, we apply BSR to high-quality data and models, which surpasses state-of-the-art RMs in the 8B scale by adding more than 5% in complex preference prediction tasks. By conducting RLOO training with 8B RMs, AlpacaEval 2.0 reduces generation length by 40% while adding a 7% increase in win rate, further highlighting that robustness in RMs induces robustness in RLHF training. We release the code, data, and models: https://github.com/LinkedIn-XFACT/RM-Robustness.

On the Robustness of Reward Models for Language Model Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理