ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints
作者: Kaili Huang, Hongming Zhang, Rui Shen, Linjun Dai, Jiahao Wang, Hanming Deng, Lewei Lu
分类: cs.CV
发布日期: 2026-03-23
💡 一句话要点
提出ACPO,通过非对称约束优化解决视觉-语言对齐中的似然漂移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言对齐 直接偏好优化 似然漂移 幻觉问题 非对称约束 多模态学习 视觉锚点崩溃
📋 核心要点
- 现有直接偏好优化(DPO)在视觉-语言模型对齐中存在似然漂移问题,导致模型产生幻觉。
- ACPO通过对拒绝奖励施加动态、目标导向的非对称约束,缓解视觉token被语言先验抑制的问题。
- 实验表明,ACPO能有效阻止视觉锚点崩溃,并在多个基准测试中超越现有方法。
📝 摘要(中文)
直接偏好优化(DPO)已成为对齐大型视觉-语言模型(LVLMs)的事实标准方法,但它存在似然漂移的问题,即选择和拒绝响应的概率都会崩溃。这种优化缺陷在多模态环境中尤其有害:选择似然的侵蚀——我们称之为视觉锚点崩溃——导致模型放弃视觉证据而倾向于强大的语言先验,从而导致显著的幻觉。为了解决这个问题,我们提出了非对称约束偏好优化(ACPO),这是一种模态无关的对齐机制,它将动态的、目标导向的缩放应用于偏好优化。ACPO导出一个复杂性感知的缩放系数,专门应用于拒绝奖励,非对称地抑制拒绝项上的梯度流,同时保持选择分布作为梯度稳定的参考。虽然从根本上说是一个通用的目标,但打破这种梯度对称对于多模态任务至关重要,因为它减轻了语言先验对视觉token的抑制。在InternVL模型上的实验表明,ACPO有效地逆转了标准DPO的选择奖励退化。通过阻止视觉锚点崩溃,ACPO通常在幻觉基准(HallusionBench, MM-IFEval)和通用排行榜(MMBench, MMStar, OCRBenchV2)上优于基线,同时推动通用能力的同步改进。
🔬 方法详解
问题定义:论文旨在解决大型视觉-语言模型(LVLMs)在使用直接偏好优化(DPO)进行对齐时出现的似然漂移问题。具体表现为“视觉锚点崩溃”,即模型在优化过程中逐渐放弃视觉证据,过度依赖语言先验,从而导致幻觉现象。现有DPO方法无法有效平衡视觉和语言信息,导致模型性能下降。
核心思路:论文的核心思路是通过引入非对称约束来优化偏好学习过程。具体来说,ACPO对拒绝响应的奖励进行动态缩放,从而非对称地抑制拒绝项的梯度流,同时保持选择响应的分布作为梯度稳定的参考。这种非对称性旨在防止视觉token被语言先验过度抑制,从而更好地保留视觉信息。
技术框架:ACPO方法可以被视为DPO框架的改进。其整体流程与DPO类似,首先收集偏好数据(选择的响应和拒绝的响应),然后使用这些数据来训练模型。关键区别在于ACPO在计算损失函数时,对拒绝响应的奖励应用了一个动态缩放系数。这个缩放系数是基于响应的复杂性计算得到的,旨在更好地平衡视觉和语言信息。
关键创新:ACPO的最重要的创新点在于引入了非对称约束,打破了DPO中选择和拒绝响应的对称性。通过对拒绝响应的奖励进行动态缩放,ACPO能够更有效地防止视觉锚点崩溃,从而提高模型的性能。这种非对称约束的设计是解决视觉-语言对齐中似然漂移问题的关键。
关键设计:ACPO的关键设计在于动态缩放系数的计算方式。论文提出了一种基于响应复杂性的缩放系数,该系数能够根据响应的复杂程度自适应地调整拒绝奖励的权重。具体的计算公式和参数设置在论文中有详细描述。此外,ACPO可以很容易地集成到现有的DPO框架中,无需对模型架构进行重大修改。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ACPO在HallusionBench和MM-IFEval等幻觉基准测试中显著优于基线方法,表明其能有效缓解幻觉问题。同时,ACPO在MMBench、MMStar和OCRBenchV2等通用排行榜上也取得了更好的性能,证明了其在提高通用能力方面的有效性。具体性能提升数据在论文中有详细展示。
🎯 应用场景
ACPO方法可广泛应用于各种需要视觉-语言对齐的任务中,例如图像描述、视觉问答、多模态对话等。通过缓解幻觉问题,ACPO可以提高这些任务的准确性和可靠性,从而在智能客服、自动驾驶、医疗诊断等领域具有重要的应用价值和潜力。
📄 摘要(原文)
While Direct Preference Optimization (DPO) has become the de facto approach for aligning Large Vision-Language Models (LVLMs), it suffers from Likelihood Displacement, where the probability of both chosen and rejected responses collapses. This optimization flaw is especially detrimental in multimodal settings: the erosion of chosen likelihoods -- a failure we term Visual Anchor Collapse -- causes models to abandon visual evidence for strong language priors, precipitating significant hallucinations. To address this, we propose Asymmetric Constrained Preference Optimization (ACPO), a modality-agnostic alignment mechanism that applies dynamic, target-oriented scaling to preference optimization. ACPO derives a complexity-aware scaling coefficient applied exclusively to the rejected reward, asymmetrically suppressing the gradient flow on the rejected term while preserving the chosen distribution as a gradient-stable reference. While fundamentally a general-purpose objective, breaking this gradient symmetry is crucial for multimodal tasks, as it mitigates the suppression of visual tokens by language priors. Experiments on InternVL models demonstrate that ACPO effectively reverses the chosen-reward degradation of standard DPO. By halting Visual Anchor Collapse, ACPO generally outperforms baselines on hallucination benchmarks (HallusionBench, MM-IFEval) and general leaderboards (MMBench, MMStar, OCRBenchV2) while driving concurrent improvements in general capabilities.