DPO-Shift: Shifting the Distribution of Direct Preference Optimization

📄 arXiv: 2502.07599v2 📥 PDF

作者: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li

分类: cs.CL

发布日期: 2025-02-11 (更新: 2025-06-06)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DPO-Shift以控制DPO的分布偏移,缓解语言模型训练中的likelihood displacement问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 语言模型对齐 人类偏好 分布偏移 likelihood displacement

📋 核心要点

  1. DPO等偏好优化方法在训练中存在likelihood displacement问题,即选择响应的概率下降。
  2. DPO-Shift通过可控地调整选择响应的概率分布,缓解likelihood displacement问题。
  3. 实验表明,DPO-Shift在MT-Bench和胜率实验中优于DPO,验证了其有效性。

📝 摘要(中文)

直接偏好优化(DPO)及其变体在将语言模型与人类偏好对齐方面越来越受欢迎。这些方法旨在教导模型更好地区分选择(或偏好)和拒绝(或不偏好)的响应。然而,先前的研究表明,选择响应的概率在训练过程中经常下降,这种现象被称为likelihood displacement。为了解决这个挑战,本文提出了DPO-Shift,以可控地移动选择概率的分布。然后,我们通过理论分析和实验验证表明,DPO-Shift在提高选择概率和牺牲奖励幅度之间存在根本的权衡。此外,我们证明了DPO-Shift在下游任务(如MT-Bench和一个设计的胜率实验)上优于DPO。我们相信这项研究表明,DPO的likelihood displacement问题可以通过一个简单且具有理论基础的解决方案有效地缓解。代码已开源。

🔬 方法详解

问题定义:DPO在训练过程中,选择响应的概率会降低,即出现likelihood displacement现象。这会导致模型无法充分学习人类偏好,影响最终的性能。现有方法缺乏对选择响应概率分布的有效控制,难以解决这个问题。

核心思路:DPO-Shift的核心思路是通过引入一个可控的分布偏移,来调整选择响应的概率。具体来说,它允许用户显式地控制选择响应概率的移动方向和幅度,从而在提高选择概率和保持奖励幅度之间找到平衡。

技术框架:DPO-Shift的整体框架与DPO类似,仍然基于pairwise ranking loss。主要的区别在于,DPO-Shift在计算loss时,引入了一个可调节的偏移参数,用于控制选择响应的概率分布。具体流程包括:1) 收集人类偏好数据(选择/拒绝);2) 使用偏好数据训练语言模型,目标是最大化选择响应的概率,同时最小化拒绝响应的概率;3) 在loss函数中引入偏移参数,控制选择响应概率的移动。

关键创新:DPO-Shift的关键创新在于引入了可控的分布偏移机制。与DPO相比,DPO-Shift不再是简单地最大化选择响应的概率,而是允许用户根据实际情况,调整选择响应的概率分布,从而更好地平衡选择概率和奖励幅度。这种可控性是DPO所不具备的。

关键设计:DPO-Shift的关键设计在于偏移参数的选择和loss函数的修改。偏移参数决定了选择响应概率的移动方向和幅度。Loss函数需要进行相应的修改,以确保模型能够学习到期望的概率分布。具体来说,DPO-Shift在DPO的loss函数中添加了一个与偏移参数相关的项,该项可以鼓励模型提高选择响应的概率,或者降低选择响应的概率,具体取决于偏移参数的符号和大小。

📊 实验亮点

实验结果表明,DPO-Shift在MT-Bench和设计的胜率实验中均优于DPO。具体来说,DPO-Shift在MT-Bench上取得了更高的分数,表明其生成的文本质量更高。在胜率实验中,DPO-Shift能够更好地学习人类偏好,从而获得更高的胜率。这些结果验证了DPO-Shift的有效性,并表明其能够有效地缓解DPO的likelihood displacement问题。

🎯 应用场景

DPO-Shift可应用于各种需要对齐语言模型与人类偏好的场景,例如对话系统、文本生成、代码生成等。通过控制选择响应的概率分布,可以提高模型的性能和用户满意度,并减少不安全或有害内容的生成。该方法具有广泛的应用前景,可以提升人工智能系统的可靠性和安全性。

📄 摘要(原文)

Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce DPO-Shift to controllably shift the distribution of the chosen probability. Then, we show that DPO-Shift exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of DPO-Shift over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.