When Distance Distracts: Representation Distance Bias in BT-Loss for Reward Models

📄 arXiv: 2512.06343v2 📥 PDF

作者: Tong Xie, Andrew Bai, Yuanhao Ban, Yunqi Hong, Haoyu Li, Cho-jui Hsieh

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-12-06 (更新: 2026-02-01)


💡 一句话要点

针对奖励模型BT损失中表征距离偏差问题,提出NormBT自适应归一化方案。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 RLHF 表征距离偏差 Bradley-Terry损失 自适应归一化 大型语言模型对齐 NormBT

📋 核心要点

  1. 现有奖励模型使用BT损失函数,但其梯度更新受表征距离影响,导致学习偏差。
  2. 提出NormBT方法,通过自适应归一化平衡表征距离的影响,聚焦于预测误差的学习信号。
  3. 实验表明,NormBT在多个LLM和数据集上提升了奖励模型性能,尤其在细粒度区分任务上提升显著。

📝 摘要(中文)

奖励模型是RLHF框架内对大型语言模型(LLM)进行对齐的关键。奖励建模中使用的标准目标是Bradley-Terry(BT)损失,它从包含选择和拒绝响应的成对数据中学习。本文分析了BT损失的每个样本的梯度,并展示了由于表征距离而产生的虚假学习信号。特别是,BT梯度范数与两个不同的组成部分成比例:(1)预测误差,由选择和拒绝响应之间预测奖励的差异反映;以及(2)成对样本在最后一层输出空间中测量的表征距离。虽然第一项捕获了预期的训练信号,但第二项会显著影响更新幅度并导致学习错位。具体而言,表征距离小的样本对通常会收到极弱的更新,即使排名错误;而距离大的样本对会收到不成比例的强更新。这导致来自大距离样本对的梯度掩盖了来自小距离样本对的梯度,而细粒度的区分在小距离样本对中尤为重要。为了克服这一限制,我们提出NormBT,一种自适应的成对归一化方案,它可以重新调整更新以平衡表征驱动的影响,并将学习信号集中在预测误差上。NormBT是对BT损失的轻量级、即插即用的修改,开销可忽略不计。在各种LLM骨干网络和数据集上,NormBT始终如一地提高了奖励模型的性能,在RewardBench的推理类别中获得了超过5%的显著收益,该类别包含许多细粒度的样本对。

🔬 方法详解

问题定义:现有奖励模型训练中,Bradley-Terry (BT) 损失函数被广泛使用。然而,BT损失的梯度更新幅度不仅取决于预测误差(chosen和rejected样本的奖励差异),还受到样本对在表征空间中距离的影响。这种表征距离偏差导致距离小的样本对更新不足,而距离大的样本对更新过强,从而影响模型的学习效果,尤其是在需要细粒度区分的场景下。

核心思路:NormBT的核心思路是通过自适应地归一化BT损失的梯度,来平衡表征距离对更新幅度的影响。其目标是减少表征距离带来的虚假学习信号,使模型更加关注预测误差,从而提高奖励模型的学习效率和准确性。

技术框架:NormBT是一种即插即用的模块,可以直接替换标准的BT损失函数。其整体流程如下:1. 计算chosen和rejected样本的奖励预测值。2. 计算chosen和rejected样本在最后一层输出空间的表征向量。3. 计算表征向量之间的距离。4. 使用该距离对BT损失的梯度进行归一化,得到NormBT损失。5. 使用NormBT损失进行模型训练。

关键创新:NormBT的关键创新在于其自适应的归一化方案。它不是简单地忽略表征距离,而是利用表征距离信息来调整梯度更新的幅度,从而平衡表征距离和预测误差的影响。这种自适应的归一化方案能够更有效地利用训练数据,提高模型的学习效率和泛化能力。

关键设计:NormBT的关键设计在于如何计算归一化系数。论文中提出使用chosen和rejected样本在最后一层输出空间的表征向量的距离作为归一化系数。具体来说,可以将该距离直接用于缩放梯度,或者使用该距离的函数(例如指数函数)进行缩放。具体的函数形式可以根据实际情况进行调整。此外,NormBT的实现非常简单,只需要对现有的BT损失函数进行少量修改即可。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NormBT在多个LLM骨干网络和数据集上均取得了显著的性能提升。特别是在RewardBench的推理类别中,NormBT的性能提升超过5%,表明其在细粒度区分任务上的有效性。此外,NormBT的计算开销非常小,可以轻松地集成到现有的训练流程中。

🎯 应用场景

NormBT可广泛应用于各种基于RLHF的大型语言模型对齐任务中,尤其是在需要细粒度区分的奖励建模场景下。例如,可以用于提升对话系统、代码生成、文本摘要等任务的性能。通过更准确地学习人类偏好,NormBT有助于构建更安全、更有用、更符合人类价值观的AI系统。未来,该方法可能被扩展到其他类型的损失函数和模型架构中。

📄 摘要(原文)

Reward models are central to Large Language Model (LLM) alignment within the framework of RLHF. The standard objective used in reward modeling is the Bradley-Terry (BT) loss, which learns from pairwise data consisting of chosen and rejected responses. In this work, we analyze the per-sample gradient of BT-loss and show spurious learning signals due to representation distance. In particular, BT gradient norm scales with two distinct components: (1) prediction error, reflected by the difference in predicted rewards between chosen and rejected responses, and critically, (2) representation distance between the pair measured in the output space of the final layer. While the first term captures the intended training signal, the second term can significantly impact the update magnitude and misalign learning. Specifically, pairs with small representation distance often receive vanishingly weak updates, even when misranked, while pairs with large distance receive disproportionately strong updates. This leads to gradients from large-distance pairs to overshadow those from small-distance pairs, where fine-grained distinctions are especially important. To overcome this limitation, we propose NormBT, an adaptive pair-wise normalization scheme that rescales updates to balance representation-driven effects and focuses learning signals on prediction error. NormBT is a lightweight, drop-in modification to BT loss with negligible overhead. Across various LLM backbones and datasets, NormBT improves reward model performance consistently, with notable gains of over 5% on the Reasoning category of RewardBench, which contains numerous fine-grained pairs.