Variance-aware Reward Modeling with Anchor Guidance
作者: Shuxing Fang, Ruijian Han, Liangyu Zhang, Fan Zhou
分类: stat.ML, cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出Anchor引导的方差感知奖励建模,解决人类偏好多样性下的奖励模型非唯一性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励建模 人类偏好 方差感知 Anchor引导 非唯一性 强化学习 RLHF
📋 核心要点
- 传统奖励模型难以处理人类偏好多样性,导致奖励信号表达能力受限。
- 论文提出Anchor引导的方差感知奖励建模,利用Anchor标签解决奖励模型非唯一性问题。
- 实验表明,该方法在奖励建模和下游RLHF任务中均取得了显著的性能提升。
📝 摘要(中文)
标准的Bradley-Terry (BT) 奖励模型在人类偏好多样化时存在局限性。虽然软偏好标签保留了不一致的信息,但BT只能通过缩小奖励边际来表达。高斯奖励模型提供了一种替代方案,可以联合预测奖励均值和奖励方差,但仅从成对偏好中会遇到根本的非唯一性问题。我们提出了Anchor引导的方差感知奖励建模,该框架通过用两个粗略的响应级别Anchor标签增强偏好数据来解决这种非唯一性问题。在此基础上,我们证明了两个Anchor足以进行识别,开发了一个联合训练目标,并为估计的奖励均值和方差函数建立了非渐近收敛速度。在模拟研究和四个真实世界的分歧偏好数据集上,我们的方法始终提高了奖励建模性能和下游的RLHF,包括PPO训练和best-of-$N$选择。
🔬 方法详解
问题定义:现有的Bradley-Terry (BT) 奖励模型在处理人类偏好多样性时表现不足,无法有效捕捉不同个体之间的偏好差异。高斯奖励模型虽然可以预测奖励的均值和方差,但仅依赖成对偏好数据会导致模型出现非唯一性问题,即存在多个模型可以解释相同的偏好数据。这种非唯一性使得奖励模型的学习变得困难,影响下游强化学习任务的性能。
核心思路:论文的核心思路是通过引入Anchor标签来解决高斯奖励模型的非唯一性问题。Anchor标签提供了一种粗略的响应级别信息,可以约束奖励模型的解空间,使其能够更准确地反映真实的奖励分布。通过将Anchor标签与成对偏好数据结合,可以有效地识别奖励模型的均值和方差。
技术框架:该方法的核心是Anchor引导的方差感知奖励建模框架。该框架包含以下几个主要步骤:1) 收集包含成对偏好数据和Anchor标签的数据集;2) 构建高斯奖励模型,该模型可以预测奖励的均值和方差;3) 设计联合训练目标,该目标同时考虑成对偏好数据和Anchor标签;4) 使用优化算法训练奖励模型,使其能够准确地预测奖励的均值和方差。
关键创新:该论文的关键创新在于提出了Anchor引导的方差感知奖励建模方法,该方法通过引入Anchor标签解决了高斯奖励模型的非唯一性问题。与传统的奖励模型相比,该方法能够更准确地捕捉人类偏好的多样性,从而提高奖励建模的性能。此外,该论文还证明了两个Anchor足以进行识别,并为估计的奖励均值和方差函数建立了非渐近收敛速度。
关键设计:该方法使用高斯分布来建模奖励,并使用均值和方差来表示奖励的不确定性。Anchor标签被设计为粗略的响应级别信息,例如“好”或“坏”。联合训练目标包含两部分:一部分是基于成对偏好数据的损失函数,另一部分是基于Anchor标签的损失函数。通过调整这两个损失函数的权重,可以平衡成对偏好数据和Anchor标签的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在模拟研究和四个真实世界的分歧偏好数据集上均取得了显著的性能提升。具体而言,该方法在奖励建模任务中取得了更高的准确率,并且在下游的RLHF任务中,例如PPO训练和best-of-$N$选择,也取得了更好的效果。与传统的奖励模型相比,该方法能够更有效地利用人类偏好数据,从而提高强化学习算法的性能。
🎯 应用场景
该研究成果可应用于各种需要理解和建模人类偏好的场景,例如推荐系统、对话系统、机器人控制等。通过更准确地建模人类偏好,可以提高推荐系统的个性化程度,改善对话系统的用户体验,并使机器人能够更好地适应人类的需求。此外,该方法还可以用于解决其他类型的非唯一性问题,例如图像生成和文本生成。
📄 摘要(原文)
Standard Bradley--Terry (BT) reward models are limited when human preferences are pluralistic. Although soft preference labels preserve disagreement information, BT can only express it by shrinking reward margins. Gaussian reward models provide an alternative by jointly predicting a reward mean and a reward variance, but suffer from a fundamental non-identifiability from pairwise preferences alone. We propose Anchor-guided Variance-aware Reward Modeling, a framework that resolves this non-identifiability by augmenting preference data with two coarse response-level anchor labels. Building on this, we prove that two anchors are sufficient for identification, develop a joint training objective and establish a non-asymptotic convergence rate for both the estimated reward mean and variance functions. Across simulation studies and four real-world diverging-preference datasets, our method consistently improves reward modeling performance and downstream RLHF, including PPO training and best-of-$N$ selection.