AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization

📄 arXiv: 2410.10148v4 📥 PDF

作者: Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-14 (更新: 2025-07-19)

🔗 代码/项目: GITHUB


💡 一句话要点

Alpha-DPO:通过自适应奖励边际优化直接偏好,提升LLM对齐效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 强化学习 人类反馈 奖励模型 自适应算法 模型对齐

📋 核心要点

  1. 现有DPO方法依赖次优参考模型,SimPO假设固定奖励边际,限制了LLM在多样化数据下的对齐效果。
  2. Alpha-DPO通过引入动态奖励边际,自适应平衡策略模型和参考模型,实现个性化奖励边际。
  3. 实验表明,Alpha-DPO在AlpacaEval 2和Arena-Hard上显著优于DPO和SimPO,提升了LLM的胜率。

📝 摘要(中文)

将大型语言模型(LLMs)与人类价值观和意图对齐对于其效用性、诚实性和安全性至关重要。从人类反馈中进行强化学习(RLHF)是实现这种对齐的常用方法,但它在计算效率和训练稳定性方面面临挑战。最近的方法,如直接偏好优化(DPO)和简单偏好优化(SimPO),提出了RLHF的离线替代方案,通过重新参数化奖励函数来简化该过程。然而,DPO依赖于可能次优的参考模型,而SimPO对固定目标奖励边际的假设可能导致在多样化数据设置中做出次优决策。在这项工作中,我们提出了$α$-DPO,一种自适应偏好优化算法,旨在通过引入动态奖励边际来解决这些限制。具体来说,$α$-DPO采用自适应偏好分布,平衡策略模型和参考模型,以实现个性化的奖励边际。我们为$α$-DPO提供了理论保证,证明了其作为替代优化目标的有效性以及通过KL散度控制平衡对齐和多样性的能力。在AlpacaEval 2和Arena-Hard上的实证评估表明,$α$-DPO在各种模型设置中始终优于DPO和SimPO,使其成为微调LLM的强大方法。我们的方法在胜率方面取得了显著的改进,突出了其作为LLM对齐的强大工具的潜力。代码可在https://github.com/junkangwu/alpha-DPO 获得。

🔬 方法详解

问题定义:现有直接偏好优化(DPO)方法依赖于一个可能次优的参考模型,这限制了其性能。而简单偏好优化(SimPO)假设一个固定的目标奖励边际,这在处理多样化的数据集时可能导致次优的决策。因此,如何克服DPO对参考模型的依赖以及SimPO对固定奖励边际的限制,是本文要解决的核心问题。

核心思路:Alpha-DPO的核心思路是引入一个自适应的奖励边际,该边际能够根据数据和模型的特性动态调整。通过这种方式,Alpha-DPO能够更好地平衡策略模型和参考模型,从而实现更有效的偏好优化。这种自适应性使得模型能够更好地适应不同的数据分布和任务需求。

技术框架:Alpha-DPO的整体框架包括以下几个主要步骤:首先,使用人类反馈数据训练一个初始的策略模型。然后,通过一个自适应偏好分布来平衡策略模型和参考模型,从而计算出一个动态的奖励边际。最后,使用这个动态的奖励边际来优化策略模型,使其更好地与人类偏好对齐。整个过程通过迭代优化来实现。

关键创新:Alpha-DPO最关键的创新在于引入了自适应的奖励边际。与DPO和SimPO不同,Alpha-DPO的奖励边际不是固定的,而是根据数据和模型的特性动态调整的。这种自适应性使得Alpha-DPO能够更好地适应不同的数据分布和任务需求,从而实现更有效的偏好优化。

关键设计:Alpha-DPO的关键设计包括:1) 自适应偏好分布的设计,用于平衡策略模型和参考模型;2) 动态奖励边际的计算方法,该方法能够根据数据和模型的特性动态调整奖励边际的大小;3) 使用KL散度控制对齐和多样性的平衡,避免模型过度拟合人类偏好而丧失生成能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Alpha-DPO在AlpacaEval 2和Arena-Hard数据集上进行了评估,结果表明其在各种模型设置下始终优于DPO和SimPO。具体而言,Alpha-DPO在胜率方面取得了显著的提升,证明了其作为微调LLM的强大工具的潜力。例如,在某些实验中,Alpha-DPO的胜率比DPO提高了超过10%。

🎯 应用场景

Alpha-DPO可广泛应用于大型语言模型的对齐任务,使其更好地符合人类价值观和意图。该方法能够提升LLM在对话生成、文本摘要、代码生成等领域的性能,并有助于构建更安全、更可靠的人工智能系统。未来,Alpha-DPO有望应用于个性化推荐、智能客服等领域,实现更智能、更人性化的服务。

📄 摘要(原文)

Aligning large language models (LLMs) with human values and intentions is crucial for their utility, honesty, and safety. Reinforcement learning from human feedback (RLHF) is a popular approach to achieve this alignment, but it faces challenges in computational efficiency and training stability. Recent methods like Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO) have proposed offline alternatives to RLHF, simplifying the process by reparameterizing the reward function. However, DPO depends on a potentially suboptimal reference model, and SimPO's assumption of a fixed target reward margin may lead to suboptimal decisions in diverse data settings. In this work, we propose $α$-DPO, an adaptive preference optimization algorithm designed to address these limitations by introducing a dynamic reward margin. Specifically, $α$-DPO employs an adaptive preference distribution, balancing the policy model and the reference model to achieve personalized reward margins. We provide theoretical guarantees for $α$-DPO, demonstrating its effectiveness as a surrogate optimization objective and its ability to balance alignment and diversity through KL divergence control. Empirical evaluations on AlpacaEval 2 and Arena-Hard show that $α$-DPO consistently outperforms DPO and SimPO across various model settings, establishing it as a robust approach for fine-tuning LLMs. Our method achieves significant improvements in win rates, highlighting its potential as a powerful tool for LLM alignment. The code is available at https://github.com/junkangwu/alpha-DPO