Preference Learning Algorithms Do Not Learn Preference Rankings
作者: Angelica Chen, Sadhika Malladi, Lily H. Zhang, Xinyi Chen, Qiuyi Zhang, Rajesh Ranganath, Kyunghyun Cho
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-05-29 (更新: 2024-10-31)
备注: NeurIPS 2024 camera-ready
💡 一句话要点
揭示偏好学习算法的局限性:模型排序能力与人类偏好存在显著差距
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 偏好学习 排序准确率 大型语言模型 RLHF DPO 对齐差距 目标函数优化
📋 核心要点
- 现有偏好学习算法(如RLHF和DPO)在提升LLM生成质量方面表现出色,但其内在排序机制的有效性受到质疑。
- 论文核心在于分析偏好学习模型的排序准确率,并揭示其与理想状态之间的差距,从而评估模型对人类偏好的学习程度。
- 实验结果表明,现有偏好调整模型的排序准确率普遍较低,并分析了DPO目标函数在纠正排序错误方面的局限性。
📝 摘要(中文)
偏好学习算法(如RLHF和DPO)常用于引导大型语言模型(LLM)生成更符合人类偏好的内容,但对其内部机制的理解仍然有限。本文研究了偏好学习是否能训练模型为更受偏好的输出赋予更高的可能性,通过排序准确率来衡量。研究发现,大多数最先进的偏好调整模型在常见偏好数据集上的排序准确率低于60%。此外,本文推导了偏好调整LLM在完美优化DPO或RLHF目标时应达到的理想排序准确率,并证明现有模型存在显著的对齐差距,即观察到的和理想的排序准确率之间的差距。这种差异归因于DPO目标,它在经验和理论上都不适合纠正参考模型中即使是轻微的排序错误。最后,本文证明了当模型接近目标中使用的参考模型时,排序准确率与经验上流行的胜率指标密切相关,进一步阐明了在线(如RLHF)和离线(如DPO)偏好学习算法之间的差异。
🔬 方法详解
问题定义:现有偏好学习算法,如RLHF和DPO,旨在使LLM生成更符合人类偏好的内容。然而,这些算法是否真正学会了对不同输出进行排序,并赋予更受偏好的输出更高的概率,仍然是一个问题。现有方法缺乏对模型排序能力的深入评估,以及对不同偏好学习目标函数优缺点的系统性分析。
核心思路:本文的核心思路是通过评估偏好学习模型的排序准确率,来衡量其对人类偏好的学习程度。通过比较实际排序准确率与理想排序准确率之间的差距(即对齐差距),来揭示现有模型的局限性。同时,分析DPO目标函数在纠正排序错误方面的不足,并探讨排序准确率与胜率等其他指标之间的关系。
技术框架:本文的研究框架主要包括以下几个部分:1) 评估现有偏好调整模型在常见偏好数据集上的排序准确率;2) 推导在完美优化DPO或RLHF目标时,偏好调整LLM应达到的理想排序准确率;3) 计算实际排序准确率与理想排序准确率之间的对齐差距;4) 分析DPO目标函数在纠正排序错误方面的局限性,并提出一种量化学习偏好数据点难度的简单有效公式;5) 研究排序准确率与胜率等其他指标之间的关系。
关键创新:本文最重要的技术创新点在于揭示了现有偏好学习算法在排序能力上的局限性,即模型的排序准确率与人类偏好之间存在显著差距。此外,本文还提出了量化学习偏好数据点难度的公式,并分析了DPO目标函数的不足。
关键设计:本文的关键设计包括:1) 使用排序准确率作为评估偏好学习模型排序能力的主要指标;2) 推导理想排序准确率,作为衡量模型对齐程度的基准;3) 分析DPO目标函数的梯度更新机制,揭示其在纠正排序错误方面的局限性;4) 提出量化学习偏好数据点难度的公式,为改进偏好学习算法提供指导。
🖼️ 关键图片
📊 实验亮点
研究发现,现有偏好调整模型的排序准确率普遍低于60%。通过对比实际排序准确率与理想排序准确率,揭示了模型存在显著的对齐差距。此外,研究还发现DPO目标函数在纠正排序错误方面存在局限性,并提出了量化学习偏好数据点难度的公式。
🎯 应用场景
该研究成果可应用于改进大型语言模型的偏好学习算法,提高模型生成内容的质量和对齐程度。通过更有效地学习人类偏好,可以使LLM在对话系统、文本生成、内容推荐等领域提供更符合用户需求的服务,并减少有害或不当内容的生成。
📄 摘要(原文)
Preference learning algorithms (e.g., RLHF and DPO) are frequently used to steer LLMs to produce generations that are more preferred by humans, but our understanding of their inner workings is still limited. In this work, we study the conventional wisdom that preference learning trains models to assign higher likelihoods to more preferred outputs than less preferred outputs, measured via ranking accuracy. Surprisingly, we find that most state-of-the-art preference-tuned models achieve a ranking accuracy of less than 60% on common preference datasets. We furthermore derive the idealized ranking accuracy that a preference-tuned LLM would achieve if it optimized the DPO or RLHF objective perfectly. We demonstrate that existing models exhibit a significant alignment gap -- i.e., a gap between the observed and idealized ranking accuracies. We attribute this discrepancy to the DPO objective, which is empirically and theoretically ill-suited to fix even mild ranking errors in the reference model, and derive a simple and efficient formula for quantifying the difficulty of learning a given preference datapoint. Finally, we demonstrate that ranking accuracy strongly correlates with the empirically popular win rate metric when the model is close to the reference model used in the objective, shedding further light on the differences between on-policy (e.g., RLHF) and off-policy (e.g., DPO) preference learning algorithms.