Reward Modeling with Ordinal Feedback: Wisdom of the Crowd
作者: Shang Liu, Yu Pan, Guanting Chen, Xiaocheng Li
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布日期: 2024-11-19
💡 一句话要点
提出基于序数反馈的奖励模型学习框架,提升LLM对齐效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 序数反馈 大型语言模型 人类偏好 直接策略优化
📋 核心要点
- 现有奖励模型学习方法主要依赖二元偏好数据,忽略了更细粒度的反馈信息,导致模型学习效率降低。
- 论文提出基于序数反馈的奖励模型学习框架,利用更丰富的偏好信息,提升奖励模型的学习效果。
- 实验结果表明,该方法在分布内和分布外设置下均能提升奖励模型的性能,且适当比例的“打平”样本有助于学习。
📝 摘要(中文)
本文提出了一个基于序数反馈的奖励模型(RM)学习框架,用于对齐大型语言模型(LLM)。传统的奖励模型学习通常基于成对偏好数据,采用Bradley-Terry(BT)模型,仅接受二元反馈(即Response 1优于Response 2,或反之)。这种方式丢弃了潜在有用的样本(如两个response“打平”的情况),并损失了更细粒度的信息(如“略好”)。本文将二元偏好反馈推广到任意粒度的序数反馈。首先,确定了一个边际无偏条件,推广了现有二元反馈设置中BT模型的假设。该条件通过“群体智慧”的社会学概念得到验证。在此条件下,为序数反馈下的成对偏好数据开发了一个自然的概率模型,并分析了其性质。证明了序数反馈在降低Rademacher复杂度方面的统计优势。所提出的学习目标和理论也扩展到hinge loss和直接策略优化(DPO)。理论分析可独立应用于知识蒸馏问题,以解释其中的偏差-方差权衡。该框架还为人类标注者提供了写作指导。数值实验验证了细粒度反馈能够为分布内和分布外设置带来更好的奖励学习效果。进一步的实验表明,加入一定比例的“打平”偏好样本可以促进RM学习。
🔬 方法详解
问题定义:现有奖励模型学习方法通常基于二元偏好数据,例如Response A优于Response B,或者Response B优于Response A。这种方法忽略了更细粒度的偏好信息,例如Response A略优于Response B,或者Response A和Response B质量相当。这种信息损失限制了奖励模型的学习效率和泛化能力。
核心思路:论文的核心思路是利用序数反馈,即允许标注者提供更细粒度的偏好信息,例如将两个response的优劣程度分为多个等级(例如,A远好于B,A略好于B,A和B差不多,B略好于A,B远好于A)。通过利用这些更丰富的偏好信息,可以更准确地学习奖励模型。论文还提出了一个边际无偏条件,保证了序数反馈的有效性。
技术框架:该框架主要包含以下几个步骤:1)收集序数偏好数据,标注者对两个response的优劣程度进行排序;2)基于序数偏好数据,构建一个概率模型,该模型描述了在给定奖励模型的情况下,观察到特定序数偏好标签的概率;3)利用最大似然估计或其他优化方法,学习奖励模型的参数;4)将学习到的奖励模型用于指导语言模型的训练,例如通过强化学习或直接策略优化。
关键创新:最重要的技术创新点在于提出了一个基于序数反馈的奖励模型学习框架,该框架能够利用更细粒度的偏好信息,从而更准确地学习奖励模型。与传统的二元偏好反馈方法相比,该框架能够更好地捕捉人类的偏好,并提高奖励模型的泛化能力。此外,论文还提出了一个边际无偏条件,保证了序数反馈的有效性。
关键设计:论文的关键设计包括:1)序数偏好标签的设计,例如将优劣程度分为几个等级;2)概率模型的构建,该模型需要能够准确地描述序数偏好数据;3)优化算法的选择,例如最大似然估计或梯度下降法;4)损失函数的选择,例如交叉熵损失或hinge loss。此外,论文还探讨了如何将该框架应用于直接策略优化(DPO)和知识蒸馏等任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与基于二元反馈的传统方法相比,该方法在奖励模型学习方面取得了显著提升。具体而言,在分布内和分布外设置下,使用序数反馈训练的奖励模型能够更准确地预测人类的偏好。此外,实验还表明,在训练数据中加入一定比例的“打平”样本可以进一步提升奖励模型的性能。
🎯 应用场景
该研究成果可广泛应用于大型语言模型的对齐,使其更好地符合人类的价值观和偏好。通过更有效地学习奖励模型,可以提升语言模型生成内容的质量、安全性和可靠性。此外,该方法还可以应用于其他需要人类反馈的机器学习任务,例如推荐系统、图像生成等。
📄 摘要(原文)
Learning a reward model (RM) from human preferences has been an important component in aligning large language models (LLMs). The canonical setup of learning RMs from pairwise preference data is rooted in the classic Bradley-Terry (BT) model that accepts binary feedback, i.e., the label being either Response 1 is better than Response 2, or the opposite. Such a setup inevitably discards potentially useful samples (such as "tied" between the two responses) and loses more fine-grained information (such as "slightly better"). In this paper, we propose a framework for learning RMs under ordinal feedback which generalizes the case of binary preference feedback to any arbitrary granularity. Specifically, we first identify a marginal unbiasedness condition, which generalizes the assumption of the BT model in the existing binary feedback setting. The condition validates itself via the sociological concept of the wisdom of the crowd. Under the condition, we develop a natural probability model for pairwise preference data under ordinal feedback and analyze its properties. We prove the statistical benefits of ordinal feedback in terms of reducing the Rademacher complexity compared to the case of binary feedback. The proposed learning objective and the theory also extend to hinge loss and direct policy optimization (DPO). In particular, the theoretical analysis may be of independent interest when applying to a seemingly unrelated problem of knowledge distillation to interpret the bias-variance trade-off therein. The framework also sheds light on writing guidance for human annotators. Our numerical experiments validate that fine-grained feedback leads to better reward learning for both in-distribution and out-of-distribution settings. Further experiments show that incorporating a certain proportion of samples with tied preference boosts RM learning.