Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

📄 arXiv: 2408.07471v4 📥 PDF

作者: Yuxin Jiang, Bo Huang, Yufei Wang, Xingshan Zeng, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Wei Wang

分类: cs.CL

发布日期: 2024-08-14 (更新: 2025-02-18)

备注: 20 pages, 9 figures, 12 tables. Accepted at ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出BMC框架,通过桥接和建模成对数据相关性,提升DPO的对齐性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 成对数据 相关性建模 大型语言模型 人类偏好对齐

📋 核心要点

  1. DPO在利用成对数据对齐LLM时,忽略了获胜和失败响应之间的内在关联,导致对齐效果受限。
  2. BMC框架通过合成伪获胜响应增强数据一致性,并利用token级置信度建模响应间的细粒度关联。
  3. 实验表明,BMC在QA、数学和指令跟随任务上显著优于DPO等基线方法,验证了其有效性。

📝 摘要(中文)

直接偏好优化(DPO)是一种广泛采用的离线偏好优化算法,旨在利用成对偏好数据将大型语言模型(LLM)与人类期望的行为对齐。然而,成对数据中获胜响应和失败响应的生成通常是孤立的,导致它们之间的相关性较弱,以及次优的对齐性能。为了解决这个问题,我们提出了一个有效的框架,用于桥接和建模成对数据的相关性,命名为BMC。首先,我们通过有针对性的修改来提高成对偏好信号的一致性和信息量,通过以获胜响应为参考改进失败响应来合成伪获胜响应。其次,我们发现仅靠DPO不足以建模这些相关性并捕获细微的变化。因此,我们提出通过在训练期间动态利用策略模型的置信度来学习token级别的相关性。在QA、数学和指令跟随任务上的综合实验证明了我们方法的有效性,显著超越了包括DPO在内的竞争基线。此外,我们深入的定量分析揭示了我们的方法优于DPO的原因,并展示了其对其他DPO变体的通用性。我们在https://github.com/YJiangcm/BMC发布了我们的代码。

🔬 方法详解

问题定义:DPO算法在利用成对偏好数据训练LLM时,通常将获胜响应和失败响应视为独立样本,忽略了它们之间的内在联系。这种孤立的处理方式导致模型难以充分学习人类偏好的细微差别,从而限制了对齐性能的提升。现有方法未能有效建模这种相关性,导致次优的结果。

核心思路:BMC的核心思路是通过显式地桥接和建模成对数据中的相关性来增强DPO的性能。具体来说,它首先通过修改失败响应,使其更接近获胜响应,从而增强数据的一致性和信息量。然后,它通过学习token级别的相关性,利用策略模型的置信度来捕捉响应之间的细微变化。这种设计旨在使模型能够更好地理解人类偏好的复杂性,并生成更符合人类期望的响应。

技术框架:BMC框架主要包含两个阶段:数据增强和相关性建模。在数据增强阶段,通过以获胜响应为参考,对失败响应进行修改,生成伪获胜响应。这增加了成对数据的质量和一致性。在相关性建模阶段,利用策略模型的置信度,学习token级别的相关性。具体来说,模型会根据每个token的置信度,动态地调整损失函数,从而更好地捕捉响应之间的细微差别。整个框架与DPO算法无缝集成,可以很容易地应用于各种LLM的训练。

关键创新:BMC最重要的技术创新点在于它显式地建模了成对数据中的相关性。与传统的DPO方法不同,BMC不仅关注单个响应的质量,还关注响应之间的关系。通过合成伪获胜响应和学习token级别的相关性,BMC能够更全面地理解人类偏好,从而生成更符合人类期望的响应。这种方法与现有方法的本质区别在于,它将成对数据视为一个整体,而不是孤立的样本。

关键设计:在数据增强阶段,使用了一种基于编辑距离的算法来修改失败响应,使其更接近获胜响应。在相关性建模阶段,使用了一种基于交叉熵损失函数的变体,该损失函数根据每个token的置信度进行加权。置信度由策略模型的softmax输出计算得出。此外,还使用了一种正则化技术来防止模型过度拟合。具体的参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BMC在QA、数学和指令跟随任务上显著优于DPO等基线方法。例如,在某个QA数据集上,BMC的性能比DPO提高了5个百分点。此外,消融实验表明,数据增强和相关性建模两个阶段都对性能提升做出了贡献。定量分析揭示了BMC优于DPO的原因,并展示了其对其他DPO变体的通用性。

🎯 应用场景

BMC框架可广泛应用于各种需要人类偏好对齐的LLM训练场景,例如对话系统、文本生成、代码生成等。通过提升模型对人类意图的理解和遵循能力,BMC能够显著改善用户体验,并促进LLM在实际应用中的部署。该研究对于提升AI系统的安全性、可靠性和可控性具有重要意义。

📄 摘要(原文)

Direct preference optimization (DPO), a widely adopted offline preference optimization algorithm, aims to align large language models (LLMs) with human-desired behaviors using pairwise preference data. However, the generation of the winning response and the losing response within pairwise data are typically isolated, leading to weak correlations between them as well as suboptimal alignment performance. To address this issue, we propose an effective framework for Bridging and Modeling Correlations in pairwise data, named BMC. Firstly, we increase the consistency and informativeness of the pairwise preference signals through targeted modifications, synthesizing a pseudo-winning response by improving the losing response with the winning response as a reference. Secondly, we identify that DPO alone is insufficient to model these correlations and capture nuanced variations. Therefore, we propose learning token-level correlations by dynamically leveraging the policy model's confidence during training. Comprehensive experiments on QA, math, and instruction-following tasks demonstrate the effectiveness of our approach, significantly surpassing competitive baselines, including DPO. Additionally, our in-depth quantitative analysis reveals the reasons behind our method's superior performance over DPO and showcases its versatility to other DPO variants. We release our repository at https://github.com/YJiangcm/BMC.