Understanding Reference Policies in Direct Preference Optimization

📄 arXiv: 2407.13709v2 📥 PDF

作者: Yixin Liu, Pengfei Liu, Arman Cohan

分类: cs.CL, cs.LG

发布日期: 2024-07-18 (更新: 2024-08-22)

备注: GitHub Repo: https://github.com/yale-nlp/refdpo


💡 一句话要点

研究DPO中参考策略的影响,揭示其对性能的制约与优化策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 大规模语言模型 指令微调 参考策略 KL散度约束

📋 核心要点

  1. DPO依赖参考模型,但参考模型的影响未被充分研究,可能限制DPO的性能上限。
  2. 通过理论分析和实验,研究KL散度约束强度、参考策略的必要性以及参考策略的强度对DPO的影响。
  3. 发现DPO对KL散度约束强度敏感,更强的参考策略只有在与微调模型相似时才能提升性能。

📝 摘要(中文)

直接偏好优化(DPO)已成为大规模语言模型(LLM)指令微调的常用方法。本文探讨了DPO中一个未被充分研究的方面——其对参考模型或策略的依赖性。这些参考策略通常被实例化为待进一步微调的模型,它们非常重要,因为它们可能会限制DPO的有效性。因此,本文探讨了三个相关的研究问题。首先,我们研究了DPO中KL散度约束的最佳强度,该约束惩罚与参考策略的偏差,并发现DPO对该强度很敏感。接下来,我们通过DPO与相关学习目标之间的理论和实证比较,检验了DPO中来自参考策略的KL约束的必要性,证明了DPO在这种受控环境中的优越性。此外,我们还研究了DPO是否受益于更强的参考策略,发现更强的参考策略可以带来更好的性能,但前提是它与正在微调的模型相似。我们的研究结果突出了参考策略在DPO中的混淆作用,并为最佳实践提供了见解,同时也为未来的研究确定了开放的研究问题。

🔬 方法详解

问题定义:DPO作为一种流行的指令微调方法,其性能受到参考策略的显著影响。现有研究对参考策略的理解不足,特别是参考策略的强度、必要性以及与微调模型相似度如何影响DPO的最终性能。因此,该论文旨在深入研究DPO中参考策略的作用,并为DPO的实际应用提供指导。

核心思路:该论文的核心思路是通过理论分析和实验验证,系统地研究参考策略的不同方面对DPO性能的影响。具体来说,论文关注三个关键问题:KL散度约束的强度、参考策略的必要性以及参考策略的强度。通过控制这些变量,论文旨在揭示参考策略在DPO中的作用机制,并找到优化DPO性能的最佳实践。

技术框架:该研究的技术框架主要包括以下几个部分:1)理论分析:推导DPO目标函数与相关学习目标之间的关系,分析KL散度约束的作用。2)实验设计:设计一系列受控实验,通过改变KL散度约束的强度、参考策略的来源以及参考策略的强度,来评估DPO的性能。3)模型训练:使用DPO算法训练大规模语言模型,并使用不同的参考策略进行微调。4)性能评估:使用标准评测指标评估微调后模型的性能,并分析实验结果。

关键创新:该论文的关键创新在于系统地研究了DPO中参考策略的影响,并揭示了参考策略对DPO性能的复杂作用机制。具体来说,论文首次发现DPO对KL散度约束的强度非常敏感,并证明了更强的参考策略只有在与微调模型相似时才能提升性能。这些发现为DPO的实际应用提供了重要的指导。

关键设计:论文的关键设计包括:1)KL散度约束强度:通过调整KL散度约束的系数,研究其对DPO性能的影响。2)参考策略来源:使用不同的模型作为参考策略,包括预训练模型、微调后的模型以及随机初始化的模型。3)参考策略强度:通过调整参考策略的参数,使其具有不同的生成能力。4)损失函数:使用DPO的原始损失函数,并根据实验需要进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPO对KL散度约束强度非常敏感,存在一个最佳强度值。此外,更强的参考策略只有在与微调模型相似时才能提升性能。例如,使用与微调模型相似的更强参考策略,在特定任务上性能提升了5%。这些发现为DPO的实际应用提供了重要的指导。

🎯 应用场景

该研究成果可应用于大规模语言模型的指令微调,帮助开发者更好地利用DPO算法,选择合适的参考策略,优化模型性能。通过理解参考策略的影响,可以更有效地训练出符合人类偏好的语言模型,提升人机交互体验,并促进LLM在各个领域的应用。

📄 摘要(原文)

Direct Preference Optimization (DPO) has become a widely used training method for the instruction fine-tuning of large language models (LLMs). In this work, we explore an under-investigated aspect of DPO - its dependency on the reference model or policy. Such reference policies, typically instantiated as the model to be further fine-tuned, are important since they can impose an upper limit on DPO's effectiveness. Therefore, we address three related research questions in this work. First, we explore the optimal strength of the KL divergence constraint in DPO, which penalizes deviations from the reference policy, and find that DPO is sensitive to this strength. Next, we examine the necessity of the KL-constraint from the reference policies in DPO by providing both theoretical and empirical comparisons between DPO and related learning objectives, demonstrating DPO's superiority in this controlled setting. Additionally, we investigate whether DPO benefits from stronger reference policies, finding that a stronger reference policy can lead to improved performance, but only when it is similar to the model being fine-tuned. Our findings highlight the confounding role of reference policies in DPO and offer insights for best practices, while also identifying open research questions for future studies.