Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts

📄 arXiv: 2412.04628v4 📥 PDF

作者: Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Nagarajan Natarajan, Chetan Bansal, Saravan Rajmohan

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-12-05 (更新: 2025-06-19)


💡 一句话要点

提出多偏好优化方法以解决直接偏好优化的局限性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 多偏好优化 组比较 奖励模型 自然语言处理 对齐模型 机器学习

📋 核心要点

  1. 现有的直接偏好优化方法在处理多个候选响应时存在对齐偏差的问题,影响了模型的学习效果。
  2. 本文提出的多偏好优化方法通过对整个响应集进行优化,扩展了Bradley-Terry模型以实现组比较,提升了学习效率。
  3. 实验结果显示,MPO在UltraFeedback基准测试中表现优异,并在AlpacaEval2上实现了17.5%的性能提升,确立了新的对齐基线。

📝 摘要(中文)

直接偏好优化(DPO)已成为对齐语言模型的热门方法,然而在实际的后训练流程中,策略生成通常会为每个提示产生多个候选响应,这些响应由奖励模型进行评分以指导学习。为此,本文提出了多偏好优化(MPO),它通过扩展Bradley-Terry模型实现对整个响应集的优化,进行选择和拒绝集之间的组比较。MPO还采用基于偏差的加权方法,强调那些与平均奖励偏离最大的异常响应,从而有效地引导自适应学习。理论上,我们证明MPO以$ extmath{O}ig( rac{1}{ ext{sqrt}(n)}ig)$的速率减少对齐偏差。实证结果表明,MPO在UltraFeedback基准测试中达到了最先进的性能,并在AlpacaEval2的长度控制胜率上实现了约17.5%的提升,建立了偏好对齐的新基线。

🔬 方法详解

问题定义:本文旨在解决现有直接偏好优化(DPO)方法在处理多个候选响应时的对齐偏差问题,尤其是在实际应用中,模型生成的多个响应可能导致学习效果不佳。

核心思路:多偏好优化(MPO)通过对整个响应集进行优化,利用扩展的Bradley-Terry模型进行组比较,从而有效提升模型的学习能力,并通过基于偏差的加权方法强调异常响应的影响。

技术框架:MPO的整体架构包括响应生成、响应评分和优化三个主要模块。首先生成多个候选响应,然后通过奖励模型对其进行评分,最后基于组比较优化整个响应集。

关键创新:MPO的核心创新在于其对组比较的引入和基于偏差的加权策略,这与传统的DPO方法不同,后者通常只关注单一对比,未能充分利用多个候选响应的信息。

关键设计:在MPO中,采用了基于偏差的加权机制,重点关注与平均奖励偏离较大的响应。此外,损失函数的设计也考虑了组比较的特性,以确保优化过程的有效性。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,MPO在UltraFeedback基准测试中达到了最先进的性能,并在AlpacaEval2的长度控制胜率上实现了约17.5%的提升,显著优于现有的最先进基线,确立了新的偏好对齐标准。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的对话系统、推荐系统以及任何需要根据用户偏好进行响应生成的场景。通过提升模型的对齐能力,MPO能够在实际应用中提供更高质量的用户体验,未来可能对个性化服务和智能助手的发展产生深远影响。

📄 摘要(原文)

Direct Preference Optimization (DPO) has become a popular approach for aligning language models using pairwise preferences. However, in practical post-training pipelines, on-policy generation typically yields multiple candidate responses per prompt, which are scored by a reward model to guide learning. In this setting, we propose $\textbf{Multi-Preference Optimization (MPO)}$, a generalization of DPO that optimizes over entire sets of responses by extending the Bradley-Terry model to groupwise comparisons between chosen and rejected sets. To further enhance learning, MPO employs deviation-based weighting, which emphasizes outlier responses that deviate most from the mean reward, effectively inducing a self-paced curriculum. We theoretically prove that MPO reduces alignment bias at a rate of $\mathcal{O}\left(\frac{1}{\sqrt{n}}\right)$ with respect to the number of responses per query. Empirically, MPO achieves state-of-the-art performance on the UltraFeedback benchmark and yields up to $\sim 17.5\%$ improvement over the state-of-the-art baseline in length-controlled win rate on AlpacaEval2, establishing a new baseline for preference-based alignment