Length-Controlled Margin-Based Preference Optimization without Reference Model

📄 arXiv: 2502.14643v2 📥 PDF

作者: Gengxu Li, Tingyu Xia, Yi Chang, Yuan Wu

分类: cs.CL

发布日期: 2025-02-20 (更新: 2025-05-29)

备注: 18 pages, 3 figures, 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出长度控制的边际偏好优化以解决DPO的局限性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好优化 强化学习 人类反馈 长度控制 边际损失函数 自然语言处理 模型鲁棒性

📋 核心要点

  1. 现有的直接偏好优化方法存在长度偏差和概率降级等问题,影响了模型的训练效果和稳定性。
  2. 本文提出的长度控制的边际偏好优化(LMPO)通过引入统一参考模型和新的损失函数,解决了DPO的局限性。
  3. 实验结果显示,LMPO在Mistral和LLaMA3等大型语言模型上表现优异,显著降低了概率降级,并有效控制了响应长度。

📝 摘要(中文)

直接偏好优化(DPO)是一种广泛应用于基于人类反馈的强化学习(RLHF)的离线算法,旨在通过重新定义奖励函数来提高训练的简单性和稳定性。然而,DPO存在长度偏差、内存效率低和概率降级等多项局限。为了解决这些问题,本文提出了一种更高效且稳健的替代方案——长度控制的边际偏好优化(LMPO)。LMPO引入了一个统一的参考模型作为DPO损失的上界,从而更准确地近似原始优化目标。此外,采用平均对数概率优化策略来减少训练与推理阶段之间的差异。LMPO的一个关键创新在于其长度控制的边际损失函数,该函数在Bradley-Terry框架内调节响应长度,同时扩大偏好与拒绝输出之间的边际,从而减轻接受和丢弃响应的概率降级。实验结果表明,LMPO在控制响应长度、减少概率降级方面表现优异,并超越了现有方法。

🔬 方法详解

问题定义:本文旨在解决直接偏好优化(DPO)在长度偏差、内存效率和概率降级等方面的局限性。这些问题导致模型训练不稳定,影响最终的性能表现。

核心思路:LMPO通过引入一个统一的参考模型作为DPO损失的上界,提供了更准确的优化目标近似。同时,采用平均对数概率优化策略,减少训练与推理阶段之间的差异,从而提高模型的鲁棒性。

技术框架:LMPO的整体架构包括损失函数的设计、参考模型的引入以及优化策略的实施。主要模块包括长度控制的边际损失函数和优化算法,确保模型在训练过程中能够有效控制输出长度。

关键创新:LMPO的关键创新在于其长度控制的边际损失函数,该函数在Bradley-Terry框架内设计,能够同时调节响应长度和扩大偏好与拒绝输出之间的边际。这一设计显著改善了现有方法的概率降级问题。

关键设计:LMPO的损失函数通过引入长度控制机制,确保生成的响应在长度上符合预期,同时通过优化策略减少训练和推理阶段的概率差异。具体的参数设置和网络结构细节在实验中进行了验证和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LMPO在Mistral和LLaMA3模型上相较于现有的偏好优化技术,显著降低了概率降级,控制响应长度的能力也得到了有效提升。具体而言,LMPO在六个条件基准测试中表现优于其他方法,展示了其在实际应用中的优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和人机交互等场景。通过提高模型在偏好优化中的表现,LMPO能够在实际应用中提升用户体验和系统的响应质量,具有重要的实际价值和未来影响。

📄 摘要(原文)

Direct Preference Optimization (DPO) is a widely adopted offline algorithm for preference-based reinforcement learning from human feedback (RLHF), designed to improve training simplicity and stability by redefining reward functions. However, DPO is hindered by several limitations, including length bias, memory inefficiency, and probability degradation. To address these challenges, we propose Length-Controlled Margin-Based Preference Optimization (LMPO), a more efficient and robust alternative. LMPO introduces a uniform reference model as an upper bound for the DPO loss, enabling a more accurate approximation of the original optimization objective. Additionally, an average log-probability optimization strategy is employed to minimize discrepancies between training and inference phases. A key innovation of LMPO lies in its Length-Controlled Margin-Based loss function, integrated within the Bradley-Terry framework. This loss function regulates response length while simultaneously widening the margin between preferred and rejected outputs. By doing so, it mitigates probability degradation for both accepted and discarded responses, addressing a significant limitation of existing methods. We evaluate LMPO against state-of-the-art preference optimization techniques on two open-ended large language models, Mistral and LLaMA3, across six conditional benchmarks. Our experimental results demonstrate that LMPO effectively controls response length, reduces probability degradation, and outperforms existing approaches. The code is available at https://github.com/gengxuli/LMPO.