Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

📄 arXiv: 2605.20834v1 📥 PDF

作者: Zhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo

分类: cs.AI, cs.LG

发布日期: 2026-05-20

备注: 49 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出CPO以解决DPO在特定条件下与RLHF目标不一致的问题,实现可证明对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 强化学习人类反馈 约束偏好优化 策略对齐 人类偏好 病态收敛 软边距排序

📋 核心要点

  1. DPO虽然在实现上简化了RLHF,但其与RLHF的等价性依赖于“RLHF最优策略偏好人类偏好响应”这一隐含假设,该假设在实践中常被违反。
  2. 论文提出约束偏好优化(CPO),通过对RLHF增加约束,确保策略优化过程中与人类偏好保持对齐,从而解决DPO在特定条件下失效的问题。
  3. 实验结果表明,CPO在标准benchmark上取得了state-of-the-art的性能,验证了其在保证对齐性的同时,能够有效提升模型性能。

📝 摘要(中文)

直接偏好优化(DPO)作为一种强化学习人类反馈(RLHF)的替代方案,因其理论等价性和更简单的实现而备受欢迎。本文证明了这种等价性是有条件的,而非普遍的,它依赖于一个在实践中经常被违反的隐含假设:RLHF的最优策略必须偏好人类偏好的响应。当这个假设失效时,DPO优化的是相对于参考策略的相对优势,而不是与人类偏好的绝对对齐,从而导致病态收敛,即策略在降低DPO损失的同时,更偏好不被偏好的响应。本文描述了该假设何时被违反,展示了一个不良解空间的存在,并证明在这种情况下,DPO和RLHF优化的是根本不同的目标。为了解决这个问题,本文引入了约束偏好优化(CPO),通过约束增强RLHF以实现可证明的对齐。进一步通过软边距排序提供了一个几何解释,揭示了DPO实现了具有潜在负目标的边距排序。理论分析确立了DPO的保证何时成立,并提供了保持简单性且具有可证明对齐的解决方案。在标准基准上的综合实验表明,CPO实现了最先进的性能。代码可在https://github.com/visitworld123/CPO获得。

🔬 方法详解

问题定义:DPO作为RLHF的替代方案,在理论上应该与RLHF等价。然而,当“RLHF最优策略偏好人类偏好响应”这一隐含假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略偏离人类偏好。现有方法缺乏对这一问题的有效解决。

核心思路:论文的核心思路是,通过引入约束来保证策略优化过程中与人类偏好保持对齐。具体来说,就是在RLHF的目标函数中加入约束,确保策略不会偏离人类偏好的方向。

技术框架:论文提出了约束偏好优化(CPO),其整体框架是在RLHF的基础上,增加一个约束项。该约束项用于限制策略的更新方向,使其始终朝着人类偏好的方向优化。CPO的目标是最大化奖励函数,同时满足约束条件。

关键创新:论文最重要的技术创新点在于,识别了DPO与RLHF等价性的隐含假设,并针对该假设失效的情况,提出了CPO这一解决方案。CPO通过约束优化,保证了策略与人类偏好的对齐,避免了DPO可能出现的病态收敛问题。与DPO相比,CPO优化的是绝对对齐,而非相对优势。

关键设计:CPO的关键设计在于约束项的设置。约束项通常基于KL散度或其他距离度量,用于限制新策略与参考策略之间的差异。约束项的强度需要仔细调整,以平衡奖励最大化和对齐性之间的关系。论文还提供了CPO的几何解释,将其视为具有潜在负目标的软边距排序。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,CPO在标准benchmark上取得了state-of-the-art的性能。具体来说,CPO在多个数据集上都显著优于DPO和其他基线方法,证明了其在保证对齐性的同时,能够有效提升模型性能。这些结果验证了CPO的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种需要从人类反馈中学习的场景,例如对话系统、文本生成、图像生成等。通过CPO,可以确保模型生成的响应或内容与人类偏好保持一致,从而提高用户满意度和信任度。该方法在安全攸关的应用中尤为重要,例如医疗诊断和自动驾驶,可以避免模型产生不安全或不符合伦理规范的行为。

📄 摘要(原文)

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.