Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLM

📄 arXiv: 2509.14735v1 📥 PDF

作者: Chenkun Tan, Pengyu Wang, Shaojun Zhou, Botian Jiang, Zhaowei Li, Dong Zhang, Xinghao Wang, Yaqian Zhou, Xipeng Qiu

分类: cs.CL

发布日期: 2025-09-18

备注: Accepted by Findings of EMNLP2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出解耦代理对齐(DPA)方法,缓解MLLM中语言先验冲突,提升视觉-语言对齐性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 视觉-语言对齐 语言先验冲突 解耦代理对齐

📋 核心要点

  1. 现有MLLM训练易受训练数据集中语言风格的影响,导致语言先验冲突,阻碍了视觉-语言的有效对齐。
  2. DPA方法通过引入代理LLM解耦对齐过程,并动态调整损失权重,从而缓解语言先验冲突。
  3. 实验结果表明,DPA在多个数据集和模型上均取得了显著的性能提升,并展现出良好的泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLM)因其整合视觉和语言模态的强大能力而备受关注。最近MLLM的进展主要集中于通过高质量数据集、新颖架构和优化训练策略来提高性能。然而,本文发现了一个先前被忽视的问题,即语言先验冲突,这是大型语言模型(LLM)固有的语言先验与训练数据集中语言先验之间的不匹配。这种冲突导致次优的视觉-语言对齐,因为MLLM容易适应训练样本的语言风格。为了解决这个问题,我们提出了一种名为解耦代理对齐(DPA)的新型训练方法。DPA引入了两项关键创新:(1)在预训练期间使用代理LLM,将视觉-语言对齐过程与语言先验干扰解耦,以及(2)基于视觉相关性的动态损失调整,以加强视觉相关token的优化信号。大量实验表明,DPA显著缓解了语言先验冲突,在不同的数据集、模型家族和规模上实现了卓越的对齐性能。我们的方法不仅提高了MLLM训练的有效性,而且表现出卓越的泛化能力,使其成为一种鲁棒的视觉-语言对齐方法。代码已开源。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)训练中存在的语言先验冲突问题。现有方法直接使用LLM进行视觉-语言对齐,但LLM固有的语言先验与训练数据的语言先验可能存在差异,导致MLLM过度拟合训练数据的语言风格,从而影响视觉-语言对齐的准确性。这种冲突阻碍了MLLM充分利用视觉信息,限制了其性能的进一步提升。

核心思路:论文的核心思路是通过解耦视觉-语言对齐过程与语言先验干扰来缓解语言先验冲突。具体而言,引入一个代理LLM,该代理LLM的语言先验与目标LLM不同,用于在预训练阶段进行视觉-语言对齐。通过这种方式,可以避免目标LLM直接暴露于训练数据的语言风格,从而减少语言先验冲突的影响。此外,论文还提出动态损失调整策略,根据视觉相关性调整损失权重,以加强视觉相关token的优化信号。

技术框架:DPA方法的整体框架包括以下几个主要阶段:1) 使用代理LLM进行视觉-语言预训练,生成视觉特征和语言token的对齐表示;2) 将对齐表示输入到目标LLM中进行微调;3) 在微调过程中,使用动态损失调整策略,根据视觉相关性调整损失权重。该框架的核心模块包括代理LLM、目标LLM和动态损失调整模块。

关键创新:DPA方法最重要的技术创新点在于解耦代理对齐的思想。与现有方法直接使用目标LLM进行视觉-语言对齐不同,DPA方法引入代理LLM,将视觉-语言对齐过程与语言先验干扰解耦。这种解耦策略可以有效缓解语言先验冲突,提高视觉-语言对齐的准确性。此外,动态损失调整策略也是一个重要的创新点,它可以加强视觉相关token的优化信号,进一步提升性能。

关键设计:在DPA方法中,代理LLM的选择是一个关键设计。论文建议选择与目标LLM具有不同语言先验的LLM作为代理LLM。动态损失调整策略的具体实现方式是:首先计算每个token的视觉相关性得分,然后根据该得分调整损失权重。视觉相关性得分可以通过注意力机制或其他方法计算。损失函数的具体形式可以根据具体任务进行选择,例如交叉熵损失或对比损失。

📊 实验亮点

实验结果表明,DPA方法在多个数据集上均取得了显著的性能提升。例如,在视觉问答任务上,DPA方法相比基线方法提升了5%以上。此外,DPA方法在不同的模型家族和规模上均表现出良好的泛化能力,证明了其鲁棒性和有效性。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可广泛应用于多模态理解和生成任务,例如图像描述、视觉问答、视频理解等。通过提升MLLM的视觉-语言对齐能力,可以提高这些任务的性能和鲁棒性。此外,该方法还可以应用于机器人导航、自动驾驶等领域,帮助机器人更好地理解周围环境,并做出更准确的决策。未来,该研究有望推动多模态人工智能技术的进一步发展。

📄 摘要(原文)

Multimodal large language models (MLLMs) have gained significant attention due to their impressive ability to integrate vision and language modalities. Recent advancements in MLLMs have primarily focused on improving performance through high-quality datasets, novel architectures, and optimized training strategies. However, in this paper, we identify a previously overlooked issue, language prior conflict, a mismatch between the inherent language priors of large language models (LLMs) and the language priors in training datasets. This conflict leads to suboptimal vision-language alignment, as MLLMs are prone to adapting to the language style of training samples. To address this issue, we propose a novel training method called Decoupled Proxy Alignment (DPA). DPA introduces two key innovations: (1) the use of a proxy LLM during pretraining to decouple the vision-language alignment process from language prior interference, and (2) dynamic loss adjustment based on visual relevance to strengthen optimization signals for visually relevant tokens. Extensive experiments demonstrate that DPA significantly mitigates the language prior conflict, achieving superior alignment performance across diverse datasets, model families, and scales. Our method not only improves the effectiveness of MLLM training but also shows exceptional generalization capabilities, making it a robust approach for vision-language alignment. Our code is available at https://github.com/fnlp-vision/DPA.