Aligning Language Models Using Follow-up Likelihood as Reward Signal
作者: Chen Zhang, Dading Chong, Feng Jiang, Chengguang Tang, Anningzhe Gao, Guohua Tang, Haizhou Li
分类: cs.CL
发布日期: 2024-09-20 (更新: 2025-02-23)
备注: Accepted by AAAI-2025, 16 pages, reward model, LLM Alignment, code repository at (https://github.com/e0397123/FLR)
💡 一句话要点
提出基于后续话语似然性的奖励模型FLR,用于对齐语言模型,无需人工或商业LLM标注。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型对齐 奖励模型 后续话语似然性 人机交互 直接偏好优化 偏好学习 无监督学习
📋 核心要点
- 现有语言模型对齐方法依赖于人工或大型语言模型标注的偏好数据,成本高昂且可能引入偏见。
- 论文提出FLR方法,利用用户后续话语的似然性作为奖励信号,无需人工或商业LLM标注,降低成本。
- 实验表明,FLR在多个基准测试中与基于人工或GPT-4标注的奖励模型性能相当,并能有效提升基础模型的有用性。
📝 摘要(中文)
在自然的人际对话中,参与者通常会根据彼此的后续反应获得反馈信号。这些反应可能包括口头回应、面部表情、情绪状态的变化以及其他非语言线索。类似地,在人机交互中,机器可以利用用户的后续话语作为反馈信号,以评估其是否恰当地满足了用户的请求。因此,我们提出使用后续话语的似然性作为奖励,以区分更受欢迎的响应和不太受欢迎的响应,而无需依赖人工或基于商业LLM的偏好标注。我们提出的奖励机制“后续似然性作为奖励”(FLR)在8个成对偏好和4个基于评分的基准测试中,与在大型人工或GPT-4标注数据上训练的强大奖励模型的性能相匹配。在FLR机制的基础上,我们提出自动挖掘来自基础策略模型的在线生成的偏好数据。这些偏好数据随后被用于通过直接偏好对齐(DAP)方法(如直接偏好优化(DPO))来提高基础模型的有用性。最后,我们证明了使用自然语言反馈微调提供后续似然性的语言模型可以显著提高FLR在奖励建模基准测试中的性能以及对齐基础策略模型有用性的有效性。
🔬 方法详解
问题定义:现有语言模型对齐方法,如强化学习或直接偏好优化,通常需要大量人工标注或依赖于大型语言模型(如GPT-4)进行偏好标注。这些标注成本高昂,且大型语言模型的偏好可能存在偏差,影响最终模型的性能。因此,如何以更低成本、更客观的方式获取偏好信号,是当前语言模型对齐面临的重要问题。
核心思路:论文的核心思路是利用用户在人机交互中的后续话语作为反馈信号。作者认为,如果机器的回复是合适的,用户更有可能给出积极的后续话语;反之,如果回复不合适,用户的后续话语可能包含负面情绪或需要澄清。因此,后续话语的似然性可以作为一种奖励信号,用于区分好的回复和坏的回复。这种方法避免了人工标注和大型语言模型的偏见,降低了成本。
技术框架:整体框架包含以下几个主要阶段:1) 数据收集:收集人机对话数据,包括机器的回复和用户的后续话语。2) 奖励建模:使用语言模型计算后续话语的似然性,作为奖励信号。3) 偏好数据挖掘:利用奖励模型从基础策略模型的在线生成中挖掘偏好数据。4) 模型对齐:使用直接偏好优化(DPO)等方法,利用挖掘的偏好数据对基础模型进行微调,提升其有用性。5) 奖励模型优化:使用自然语言反馈微调用于提供后续话语似然性的语言模型,进一步提升FLR的性能。
关键创新:最重要的技术创新点在于使用后续话语的似然性作为奖励信号。与传统的基于人工或大型语言模型标注的方法相比,该方法更加客观、成本更低,并且能够更好地反映用户的真实偏好。此外,论文还提出了自动挖掘偏好数据的方法,进一步降低了对人工标注的依赖。
关键设计:论文的关键设计包括:1) 使用预训练语言模型(如BERT或RoBERTa)计算后续话语的似然性。2) 使用交叉熵损失函数训练奖励模型,使其能够准确预测后续话语的似然性。3) 使用DPO算法对基础模型进行微调,使其能够生成更符合用户偏好的回复。4) 使用自然语言反馈数据微调奖励模型,提升其性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FLR方法在8个成对偏好和4个基于评分的基准测试中,与在大型人工或GPT-4标注数据上训练的强大奖励模型的性能相匹配。此外,使用自然语言反馈微调奖励模型后,FLR的性能得到了显著提升,进一步验证了该方法的有效性。
🎯 应用场景
该研究成果可广泛应用于对话系统、智能客服、聊天机器人等领域。通过利用用户的后续反馈,可以更有效地提升机器的回复质量和用户满意度,改善人机交互体验。此外,该方法降低了对人工标注的依赖,有助于降低模型训练成本,加速语言模型的部署和应用。
📄 摘要(原文)
In natural human-to-human conversations, participants often receive feedback signals from one another based on their follow-up reactions. These reactions can include verbal responses, facial expressions, changes in emotional state, and other non-verbal cues. Similarly, in human-machine interactions, the machine can leverage the user's follow-up utterances as feedback signals to assess whether it has appropriately addressed the user's request. Therefore, we propose using the likelihood of follow-up utterances as rewards to differentiate preferred responses from less favored ones, without relying on human or commercial LLM-based preference annotations. Our proposed reward mechanism, ``Follow-up Likelihood as Reward" (FLR), matches the performance of strong reward models trained on large-scale human or GPT-4 annotated data on 8 pairwise-preference and 4 rating-based benchmarks. Building upon the FLR mechanism, we propose to automatically mine preference data from the online generations of a base policy model. The preference data are subsequently used to boost the helpfulness of the base model through direct alignment from preference (DAP) methods, such as direct preference optimization (DPO). Lastly, we demonstrate that fine-tuning the language model that provides follow-up likelihood with natural language feedback significantly enhances FLR's performance on reward modeling benchmarks and effectiveness in aligning the base policy model's helpfulness.