Towards Disentangled Preference Optimization Dynamics Beyond Likelihood Displacement

📄 arXiv: 2604.18239v1 📥 PDF

作者: Wei Chen, Yubing Wu, Junmei Yang, Delu Zeng, Qibin Zhao, John Paisley, Min Chen, Zhou Wang

分类: cs.LG, cs.AI

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出奖励校准方法,解决偏好优化中似然位移问题,提升大语言模型对齐效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好优化 大型语言模型 似然位移 奖励校准 解耦学习

📋 核心要点

  1. 现有基于间隔的偏好优化方法存在似然位移问题,即同时抑制选择和拒绝的响应,阻碍模型有效学习人类偏好。
  2. 论文提出激励-分数分解,揭示不同偏好优化目标函数的共性,并基于此定义解耦带(DB)来避免似然位移。
  3. 提出奖励校准(RC)方法,自适应调整选择和拒绝更新的权重,满足DB条件,实验证明能提升下游任务性能。

📝 摘要(中文)

偏好优化被广泛用于使大型语言模型(LLMs)与人类偏好对齐。然而,许多基于间隔的目标函数会同时抑制选择的响应和拒绝的响应,这种现象被称为似然位移,并且目前没有通用的机制可以阻止这种情况发生。本文通过提出偏好优化的统一激励-分数分解来弥补这一差距,揭示了不同的目标函数共享相同的局部更新方向,仅在它们的标量加权系数上有所不同。在此分解的基础上,通过分析选择/拒绝似然的动态,我们确定了“解耦带”(DB),这是一个简单、可测试的条件,用于表征训练何时可以通过实现首选路径来避免似然位移:抑制失败者,同时保持获胜者,可能在最初的瞬态之后。利用DB,我们提出了一种即插即用的“奖励校准”(RC),它可以自适应地重新平衡选择与拒绝的更新,以满足DB并减轻似然位移,而无需重新设计基本目标。实验结果表明,RC引导训练朝着更解耦的动态发展,并且通常可以提高各种目标的下游性能。代码可在https://github.com/IceyWuu/DisentangledPreferenceOptimization获取。

🔬 方法详解

问题定义:现有偏好优化方法,特别是基于间隔的方法,在训练过程中会遇到“似然位移”问题。这意味着模型在试图提升被选择的响应的同时,也会不必要地抑制被拒绝的响应。理想情况下,我们希望模型只降低被拒绝响应的概率,而保持或提升被选择响应的概率。似然位移阻碍了模型学习到真正符合人类偏好的策略,导致次优性能。

核心思路:论文的核心思路是将偏好优化过程分解为“激励”和“分数”两部分,从而揭示不同目标函数之间的共性。通过分析选择和拒绝响应的似然动态,定义了一个“解耦带”(Disentanglement Band, DB),DB提供了一个可测试的条件,用于判断训练过程是否能够避免似然位移。如果训练过程满足DB条件,则可以实现“首选路径”,即抑制被拒绝的响应,同时保持或提升被选择的响应。

技术框架:论文提出的框架主要包含以下几个步骤:1. 对现有的偏好优化目标进行激励-分数分解。2. 基于分解结果,分析选择和拒绝响应的似然动态,推导出解耦带(DB)条件。3. 设计奖励校准(Reward Calibration, RC)方法,该方法根据DB条件自适应地调整选择和拒绝响应的更新权重。RC方法可以作为插件,应用于各种现有的偏好优化目标函数。

关键创新:论文的关键创新在于:1. 提出了偏好优化的激励-分数分解,为理解不同目标函数之间的关系提供了一个新的视角。2. 定义了解耦带(DB)条件,为判断和避免似然位移提供了一个可操作的工具。3. 提出了奖励校准(RC)方法,能够自适应地调整训练过程,使其满足DB条件,从而减轻似然位移。

关键设计:奖励校准(RC)方法的核心在于根据DB条件动态调整奖励函数。具体来说,RC方法会监测选择和拒绝响应的似然变化,并根据这些变化调整奖励函数的权重,以确保训练过程满足DB条件。RC方法不需要修改原有的目标函数,可以作为插件直接应用。具体的参数设置和损失函数取决于所使用的基础偏好优化目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的奖励校准(RC)方法能够有效地引导训练朝着更解耦的动态发展,减轻似然位移。在多个下游任务上,使用RC方法训练的模型通常能够取得更好的性能,证明了该方法的有效性和通用性。具体性能提升幅度取决于所使用的基础偏好优化目标和下游任务。

🎯 应用场景

该研究成果可应用于各种需要对齐大型语言模型与人类偏好的场景,例如对话系统、文本生成、代码生成等。通过减轻似然位移,可以提高模型的生成质量和用户满意度,并有望提升AI系统的安全性和可靠性。未来,该方法可以进一步扩展到其他类型的强化学习任务中。

📄 摘要(原文)

Preference optimization is widely used to align large language models (LLMs) with human preferences. However, many margin-based objectives suppress the chosen response along with the rejected one, a phenomenon known as likelihood displacement, and no general mechanism currently prevents this across objectives. We bridge this gap by presenting a unified \emph{incentive-score decomposition} of preference optimization, revealing that diverse objectives share identical local update directions and differ only in their scalar weighting coefficients. Building on this decomposition, by analyzing the dynamics of the chosen/rejected likelihoods, we identify the \emph{disentanglement band} (DB), a simple, testable condition that characterizes when training can avoid likelihood displacement by realizing the preferred pathway: suppressing the loser while maintaining the winner, possibly after an initial transient. Leveraging the DB, we propose a plug-and-play \emph{reward calibration} (RC) that adaptively rebalances chosen versus rejected updates to satisfy the DB and mitigate likelihood displacement, without redesigning the base objective. Empirical results show that RC steers training toward more disentangled dynamics and often improves downstream performance across a range of objectives. Our code is available at https://github.com/IceyWuu/DisentangledPreferenceOptimization.