Bayesian Preference Learning for Test-Time Steerable Reward Models
作者: Jiwoo Hong, Shao Tang, Zhipeng Wang
分类: cs.LG, cs.CL
发布日期: 2026-02-09
备注: Preprint
💡 一句话要点
提出Variational In-Context Reward Modeling (ICRM),实现测试时可控的奖励模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励模型 强化学习 贝叶斯推断 上下文学习 变分推断 偏好学习 多目标优化
📋 核心要点
- 现有奖励模型在训练后缺乏适应性,难以应对复杂和多变的偏好分布。
- ICRM通过贝叶斯方法,将奖励建模视为变分推断,利用上下文信息实现测试时可控性。
- 实验表明,ICRM在单目标和多目标任务中均能有效提升性能,并具备编码可验证奖励的能力。
📝 摘要(中文)
奖励模型在通过强化学习(RL)将语言模型与人类偏好对齐方面至关重要。随着RL越来越多地应用于可验证奖励和多目标对齐等场景,奖励模型需要编码更复杂和多方面的偏好分布。然而,分类器奖励模型一旦训练完成就保持静态,限制了它们在测试时的适应性。我们提出了Variational In-Context Reward Modeling (ICRM),这是一种新颖的贝叶斯奖励建模目标,它通过上下文偏好演示实现测试时的可控性。ICRM将奖励建模视为在Bradley-Terry模型下,使用共轭Beta先验,对潜在偏好概率进行摊销变分推断。我们表明,ICRM可以在单目标和多目标设置中适应测试时未见过的偏好分布。通过更多的上下文演示,ICRM在单目标设置中,在SafeRLHF上获得了34%的准确率提升,在RM-Bench上获得了9%的准确率提升,同时在helpfulness和refusal基准测试中,通过超体积增加了4%,从而扩大了Pareto前沿。我们进一步研究了ICRM在RL训练中的实际适用性,表明它可以通过在数学推理方面优于传统奖励模型来有效地编码可验证奖励。最后,我们提供了变分目标允许具有有限置信度的全局内部最优解的理论保证,并分析了KL正则化如何缓解奖励过度优化。
🔬 方法详解
问题定义:现有奖励模型(RMs)通常是静态的,一旦训练完成,就无法在测试时适应新的或变化的偏好。这限制了它们在需要根据特定上下文或用户意图进行调整的场景中的应用,例如多目标优化或可验证奖励。
核心思路:ICRM的核心思想是将奖励建模视为一个贝叶斯推断问题,利用变分推断来学习一个潜在的偏好概率分布。通过在上下文中提供偏好示例,ICRM能够动态地调整其奖励函数,从而适应新的偏好分布。这种方法允许模型在测试时根据给定的上下文进行“学习”,而无需重新训练。
技术框架:ICRM使用Bradley-Terry模型来建模偏好概率,并使用共轭Beta先验来表示潜在的偏好分布。整个框架通过摊销变分推断进行训练,其中一个神经网络被训练来近似后验分布。在测试时,模型接收上下文偏好演示,并使用这些演示来更新其对潜在偏好分布的估计,从而调整奖励函数。
关键创新:ICRM的关键创新在于其将奖励建模与上下文学习相结合的能力。传统的奖励模型是静态的,而ICRM能够根据上下文动态地调整其奖励函数。此外,ICRM使用贝叶斯方法,这使得它能够量化其对偏好分布的不确定性,并根据可用的信息量进行调整。
关键设计:ICRM的关键设计包括:1) 使用Bradley-Terry模型来建模偏好概率;2) 使用共轭Beta先验来表示潜在的偏好分布;3) 使用变分推断来学习后验分布;4) 使用KL散度正则化来防止奖励过度优化。损失函数包含一个重构损失项和一个KL散度正则化项,用于平衡模型的拟合能力和泛化能力。
📊 实验亮点
ICRM在SafeRLHF和RM-Bench数据集上分别取得了34%和9%的准确率提升。在多目标优化任务中,ICRM通过增加4%的超体积,扩大了Pareto前沿,表明其在平衡多个目标方面的有效性。此外,ICRM在数学推理任务中优于传统奖励模型,证明了其编码可验证奖励的能力。
🎯 应用场景
ICRM具有广泛的应用前景,包括:1) 可验证奖励:用于训练能够提供可验证结果的语言模型,例如数学推理;2) 多目标对齐:用于训练能够平衡多个目标(例如,helpfulness和refusal)的语言模型;3) 个性化奖励:用于训练能够根据用户特定偏好进行调整的语言模型。该研究有助于提升奖励模型的灵活性和适应性,使其更好地服务于各种实际应用。
📄 摘要(原文)
Reward models are central to aligning language models with human preferences via reinforcement learning (RL). As RL is increasingly applied to settings such as verifiable rewards and multi-objective alignment, RMs are expected to encode more complex and multifaceted preference distributions. However, classifier RMs remain static once trained, limiting their adaptability at test time. We propose Variational In-Context Reward Modeling (ICRM), a novel Bayesian reward modeling objective that enables test-time steerability via in-context preference demonstrations. ICRM casts reward modeling as amortized variational inference over a latent preference probability under the Bradley-Terry model using a conjugate Beta prior. We show that ICRM adapt to unseen preference distributions at test time for both single and multi-objective settings. With more in-context demonstrations, ICRM gains 34% accuracy on SafeRLHF and 9% accuracy on RM-Bench in the single-objective setting, while widening the Pareto frontier with a 4% gain in hypervolume on helpfulness and refusal benchmarks. We further study the practical applicability of ICRM for RL training, showing that it can effectively encode verifiable rewards by outperforming a conventional RM in math reasoning. Finally, we provide theoretical guarantees that the variational objective admits a global interior optimum with finite confidence, and we analyze how KL regularization mitigates reward over-optimization.