Reward Learning From Preference With Ties
作者: Jinsong Liu, Dongdong Ge, Ruihao Zhu
分类: cs.LG, cs.AI
发布日期: 2024-10-05
💡 一句话要点
提出BTT模型,解决RLHF中奖励学习忽略并列偏好导致的偏差问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励学习 人类反馈强化学习 偏好建模 Bradley-Terry模型 并列偏好
📋 核心要点
- 现有RLHF方法依赖BT模型学习人类偏好,但忽略了人类可能对两个回复没有明显偏好(即并列)的情况。
- 论文提出使用BTT模型,该模型能有效处理并列偏好,从而更准确地估计偏好强度,减少偏差。
- 实验表明,即使在可以访问真实分布的情况下,忽略并列偏好也会导致偏差,而BTT模型能显著提升性能。
📝 摘要(中文)
奖励学习在基于人类反馈的强化学习(RLHF)中至关重要,它确保了语言模型的一致性。Bradley-Terry(BT)模型是目前从包含选择和拒绝响应对的数据集中捕获人类偏好的常用选择。在偏好建模中,重点不是绝对值,而是选择和拒绝响应之间的奖励差异,即偏好强度。因此,精确评估偏好强度在偏好建模中至关重要。然而,一个容易被忽视的因素是,人类对两个响应的态度可能不仅仅表明对一个响应的偏好,并列偏好也很常见。为了解决这个问题,我们建议采用广义的Bradley-Terry模型——带有并列的Bradley-Terry模型(BTT)来适应并列偏好,从而利用额外的信息。我们证明,即使可以访问提示和响应的真实分布,忽略并列偏好也会导致偏好强度测量中出现明显的偏差。全面的实验进一步验证了在偏好建模中加入并列偏好的优势。值得注意的是,在由最先进的开源LLM标记的带有并列偏好的合成偏好数据集上,使用BTT进行微调明显优于使用BT进行微调。
🔬 方法详解
问题定义:现有基于人类反馈的强化学习(RLHF)方法,特别是奖励学习阶段,通常使用Bradley-Terry (BT) 模型来学习人类对不同回复的偏好。然而,BT模型假设人类总是能明确区分两个回复的优劣,忽略了实际中常见的“并列”情况,即人类认为两个回复质量相当,没有明显偏好。这种忽略导致偏好强度估计出现偏差,进而影响奖励模型的训练效果。
核心思路:论文的核心思路是引入Bradley-Terry模型的一个扩展版本,即Bradley-Terry with Ties (BTT) 模型,来显式地建模并列偏好。BTT模型允许人类在比较两个回复时给出“偏好A”、“偏好B”或“并列”三种选择,从而更全面地捕捉人类的真实偏好。通过更准确地建模人类偏好,BTT模型能够更精确地估计偏好强度,减少奖励学习中的偏差。
技术框架:该研究主要集中在奖励学习阶段,并没有涉及完整的RLHF流程。其技术框架可以概括为:1)收集包含并列偏好的数据集;2)使用BTT模型训练奖励模型,该模型能够区分“偏好A”、“偏好B”和“并列”三种情况;3)使用训练好的奖励模型进行后续的强化学习训练(这部分不是论文的重点,但属于应用场景)。
关键创新:论文的关键创新在于将BTT模型引入到RLHF的奖励学习阶段,从而能够显式地建模并列偏好。与传统的BT模型相比,BTT模型能够更准确地估计偏好强度,减少奖励学习中的偏差。这是对现有RLHF方法的一个重要改进,因为它解决了忽略并列偏好可能导致的问题。
关键设计:BTT模型的核心在于其概率公式,它为每对回复 (A, B) 定义了三种概率:P(A > B), P(B > A), P(A = B),分别表示A优于B、B优于A和A与B并列的概率。这些概率由奖励模型的输出决定,通常使用sigmoid函数或softmax函数的变体进行建模。损失函数的设计需要考虑这三种情况,并鼓励模型学习到能够区分不同偏好程度的奖励值。具体的参数设置和网络结构取决于具体的奖励模型,但关键在于确保模型能够处理并列偏好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在合成数据集上,使用BTT模型进行微调显著优于使用BT模型进行微调。具体来说,在包含并列偏好的合成数据集上,BTT模型能够更准确地估计偏好强度,从而获得更好的奖励模型。这些结果验证了BTT模型在处理并列偏好方面的优势,并表明其在RLHF中具有重要的应用潜力。
🎯 应用场景
该研究成果可广泛应用于各种需要从人类反馈中学习的AI系统中,尤其是在语言模型对齐、推荐系统、游戏AI等领域。通过更准确地建模人类偏好,可以训练出更符合人类价值观和需求的AI系统。未来的研究可以探索如何更有效地收集和利用包含并列偏好的数据,以及如何将BTT模型与其他奖励学习技术相结合。
📄 摘要(原文)
Reward learning plays a pivotal role in Reinforcement Learning from Human Feedback (RLHF), ensuring the alignment of language models. The Bradley-Terry (BT) model stands as the prevalent choice for capturing human preferences from datasets containing pairs of chosen and rejected responses. In preference modeling, the focus is not on absolute values but rather on the reward difference between chosen and rejected responses, referred to as preference strength. Thus, precise evaluation of preference strength holds paramount importance in preference modeling. However, an easily overlooked factor significantly affecting preference strength measurement is that human attitudes towards two responses may not solely indicate a preference for one over the other and ties are also a common occurrence. To address this, we propose the adoption of the generalized Bradley-Terry model -- the Bradley-Terry model with ties (BTT) -- to accommodate tied preferences, thus leveraging additional information. We prove that even with the access to the true distributions of prompt and response, disregarding ties can lead to a notable bias in preference strength measurement. Comprehensive experiments further validate the advantages of incorporating ties in preference modeling. Notably, fine-tuning with BTT significantly outperforms fine-tuning with BT on synthetic preference datasets with ties, labeled by state-of-the-art open-source LLMs.