Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLM
作者: Chenkun Tan, Pengyu Wang, Shaojun Zhou, Botian Jiang, Zhaowei Li, Dong Zhang, Xinghao Wang, Yaqian Zhou, Xipeng Qiu
分类: cs.CL
发布日期: 2025-09-18
备注: Accepted by Findings of EMNLP2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出解耦代理对齐(DPA)方法,缓解MLLM中语言先验冲突,提升视觉-语言对齐性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 视觉-语言对齐 语言先验冲突 解耦代理对齐
📋 核心要点
- 现有MLLM训练易受训练数据语言风格影响,导致LLM固有的语言先验与训练数据先验冲突,影响视觉-语言对齐。
- DPA方法通过引入代理LLM解耦对齐过程与语言先验干扰,并动态调整损失,强化视觉相关token的优化信号。
- 实验表明DPA能有效缓解语言先验冲突,在多种数据集、模型和规模上提升对齐性能,并展现出良好的泛化能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)因其整合视觉和语言模态的强大能力而备受关注。最近MLLM的进展主要集中于通过高质量数据集、新颖架构和优化训练策略来提高性能。然而,本文发现了一个先前被忽视的问题,即语言先验冲突,这是大型语言模型(LLM)固有的语言先验与训练数据集中语言先验之间的不匹配。这种冲突导致次优的视觉-语言对齐,因为MLLM容易适应训练样本的语言风格。为了解决这个问题,我们提出了一种名为解耦代理对齐(DPA)的新型训练方法。DPA引入了两项关键创新:(1)在预训练期间使用代理LLM,将视觉-语言对齐过程与语言先验干扰解耦,以及(2)基于视觉相关性的动态损失调整,以加强视觉相关token的优化信号。大量实验表明,DPA显著缓解了语言先验冲突,在不同的数据集、模型家族和规模上实现了卓越的对齐性能。我们的方法不仅提高了MLLM训练的有效性,而且表现出卓越的泛化能力,使其成为一种鲁棒的视觉-语言对齐方法。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)训练中存在的“语言先验冲突”问题。具体来说,MLLM在训练时容易受到训练数据集的语言风格影响,导致其自身固有的语言先验与训练数据的语言先验不一致,从而损害视觉和语言模态之间的对齐效果。现有方法未能有效解决这一问题,导致MLLM的性能受到限制。
核心思路:论文的核心思路是解耦视觉-语言对齐过程与语言先验的干扰。通过引入一个“代理LLM”,在预训练阶段,该代理LLM负责处理语言信息,而主LLM则专注于视觉-语言的对齐。这样可以避免主LLM直接暴露于训练数据的语言风格中,从而减少语言先验冲突。此外,论文还提出动态损失调整策略,根据视觉相关性来调整损失权重,进一步强化视觉相关token的优化信号。
技术框架:DPA方法主要包含两个关键模块:1) 代理LLM:在预训练阶段,使用一个独立的LLM(代理LLM)来处理语言信息,并生成语言表示。2) 动态损失调整:根据视觉信息,动态调整损失函数中不同token的权重。具体流程如下:首先,视觉编码器提取图像特征。然后,代理LLM处理文本输入,生成语言表示。接下来,视觉特征和语言表示被融合,输入到主LLM中进行训练。在训练过程中,根据视觉相关性,动态调整损失函数中不同token的权重,以加强视觉相关token的优化信号。
关键创新:DPA方法的关键创新在于:1) 解耦对齐过程:通过引入代理LLM,将视觉-语言对齐过程与语言先验干扰解耦,从而避免主LLM直接暴露于训练数据的语言风格中。2) 动态损失调整:根据视觉相关性,动态调整损失函数中不同token的权重,从而强化视觉相关token的优化信号。与现有方法相比,DPA方法能够更有效地缓解语言先验冲突,从而提高MLLM的视觉-语言对齐性能。
关键设计:1) 代理LLM的选择:论文中使用了预训练的LLM作为代理LLM,例如LLaMA。2) 视觉相关性度量:论文使用交叉注意力机制来度量视觉相关性。具体来说,计算视觉特征和语言token之间的交叉注意力权重,并将该权重作为视觉相关性的度量。3) 损失函数调整:论文使用加权交叉熵损失函数,其中每个token的权重根据其视觉相关性进行调整。视觉相关性越高的token,其权重越大。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DPA方法在多个数据集上显著提升了MLLM的性能。例如,在视觉问答任务中,DPA方法在多个基准数据集上取得了SOTA结果,相比现有方法提升了2-5个百分点。此外,DPA方法还展现出良好的泛化能力,在不同的模型家族和规模上均取得了显著的性能提升。消融实验验证了代理LLM和动态损失调整策略的有效性。
🎯 应用场景
该研究成果可广泛应用于各种需要多模态理解的场景,例如图像描述生成、视觉问答、机器人导航、智能客服等。通过提升MLLM的视觉-语言对齐能力,可以提高这些应用在复杂环境下的性能和鲁棒性,从而实现更智能、更可靠的人工智能系统。未来,该方法有望进一步扩展到其他模态,例如音频和视频,以实现更全面的多模态理解。
📄 摘要(原文)
Multimodal large language models (MLLMs) have gained significant attention due to their impressive ability to integrate vision and language modalities. Recent advancements in MLLMs have primarily focused on improving performance through high-quality datasets, novel architectures, and optimized training strategies. However, in this paper, we identify a previously overlooked issue, language prior conflict, a mismatch between the inherent language priors of large language models (LLMs) and the language priors in training datasets. This conflict leads to suboptimal vision-language alignment, as MLLMs are prone to adapting to the language style of training samples. To address this issue, we propose a novel training method called Decoupled Proxy Alignment (DPA). DPA introduces two key innovations: (1) the use of a proxy LLM during pretraining to decouple the vision-language alignment process from language prior interference, and (2) dynamic loss adjustment based on visual relevance to strengthen optimization signals for visually relevant tokens. Extensive experiments demonstrate that DPA significantly mitigates the language prior conflict, achieving superior alignment performance across diverse datasets, model families, and scales. Our method not only improves the effectiveness of MLLM training but also shows exceptional generalization capabilities, making it a robust approach for vision-language alignment. Our code is available at https://github.com/fnlp-vision/DPA.