Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs
作者: Wei-Yao Wang, Zhao Wang, Helen Suzuki, Yoshiyuki Kobayashi
分类: cs.CV, cs.AI
发布日期: 2025-03-04 (更新: 2025-03-13)
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出MapleLeaf AKI,通过解耦因果注意力实现多模态LLM的模态互注意力。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言对齐 因果注意力 模态互注意力 大型语言模型 多模态LLM 图像理解
📋 核心要点
- 现有MLLM存在视觉-语言不对齐问题,模型输出与输入图像-文本内容不符,影响了模型性能。
- 论文提出MapleLeaf AKI,通过将因果注意力解耦为模态互注意力,使图像token能够关注文本token,从而实现更好的模态融合。
- 实验结果表明,AKI在12个多模态理解基准测试中取得了显著提升,平均提升7.2%,且未增加额外参数和训练时间。
📝 摘要(中文)
近年来,多模态大型语言模型(MLLM)在多模态理解和推理方面取得了显著进展。然而,视觉-语言对齐问题日益突出,模型生成的文本响应与输入的图像-文本内容不一致。现有方法主要集中在开发专门的视觉-语言连接器或利用来自不同领域的视觉指令微调。本文从MLLM的核心架构出发,提出了MapleLeaf AKI,一种新型MLLM,它将因果注意力解耦为模态互注意力(MMA),使图像token能够关注文本token。该设计简单有效,在不增加额外参数和训练时间的情况下,AKI在12个多模态理解基准测试中取得了优异的性能(平均提升7.2%)。MMA设计具有通用性和可扩展性,适用于各种模态和多模态场景。代码和模型已公开,以促进MLLM在各个方向上的进一步发展。
🔬 方法详解
问题定义:现有的多模态大型语言模型(MLLMs)在处理视觉和语言信息时,存在视觉-语言不对齐的问题。具体来说,模型生成的文本描述可能与输入的图像内容不一致,导致理解偏差和错误。这种不对齐的根本原因在于MLLMs通常基于decoder-only的LLM架构,其因果注意力机制限制了图像等早期模态获取来自文本等后期模态的信息。
核心思路:本文的核心思路是将MLLM中decoder-only LLM的因果注意力机制解耦为模态互注意力(Modality-Mutual Attention, MMA)。通过这种方式,图像tokens不再被限制只能关注之前的图像tokens,而是可以自由地关注文本tokens,从而实现图像和文本之间的双向信息流动,增强模态间的对齐和融合。
技术框架:MapleLeaf AKI的整体架构沿用了MLLM的常见结构,包括视觉编码器(例如,CLIP ViT)、视觉-语言连接器以及大型语言模型(LLM)。关键的创新在于视觉-语言连接器之后,在LLM的注意力层中引入了MMA机制。具体而言,在标准的自注意力计算中,query、key和value来自不同的模态,从而实现跨模态的注意力交互。
关键创新:最重要的技术创新点在于将传统的因果注意力(Causal Attention)转化为模态互注意力(MMA)。传统的因果注意力只允许每个token关注其之前的token,而MMA允许图像token关注文本token,从而打破了模态之间的信息单向流动限制。这种设计使得模型能够更好地理解图像和文本之间的关系,从而提高多模态理解能力。
关键设计:在具体实现上,MMA可以通过修改标准Transformer的注意力计算方式来实现。例如,可以设计一个注意力mask,允许图像tokens关注所有文本tokens,同时保持文本tokens的因果注意力。此外,论文可能还涉及一些超参数的调整,例如注意力头的数量、隐藏层维度等,以优化模型的性能。损失函数方面,通常采用标准的语言模型损失函数,并可能结合一些辅助损失函数来进一步提升视觉-语言对齐效果。具体的网络结构细节和参数设置需要在论文原文中查找。
🖼️ 关键图片
📊 实验亮点
MapleLeaf AKI在12个多模态理解基准测试中取得了显著的性能提升,平均提升幅度达到7.2%。值得注意的是,这一提升是在没有增加额外参数和训练时间的情况下实现的,表明该方法的效率和有效性。这些实验结果充分证明了模态互注意力机制在多模态理解任务中的优越性。
🎯 应用场景
该研究成果可广泛应用于需要多模态信息理解的场景,例如图像描述生成、视觉问答、多模态对话系统等。通过提升视觉-语言对齐能力,可以提高这些应用在实际场景中的准确性和可靠性。未来,该方法有望扩展到更多模态,例如音频、视频等,从而构建更强大的多模态智能系统。
📄 摘要(原文)
Recent Multimodal Large Language Models (MLLMs) have demonstrated significant progress in perceiving and reasoning over multimodal inquiries, ushering in a new research era for foundation models. However, vision-language misalignment in MLLMs has emerged as a critical challenge, where the textual responses generated by these models are not factually aligned with the given text-image inputs. Existing efforts to address vision-language misalignment have focused on developing specialized vision-language connectors or leveraging visual instruction tuning from diverse domains. In this paper, we tackle this issue from a fundamental yet unexplored perspective by revisiting the core architecture of MLLMs. Most MLLMs are typically built on decoder-only LLMs consisting of a causal attention mechanism, which limits the ability of the earlier modalities (e.g., images) to incorporate information from the latter modalities (e.g., text). To address this problem, we propose \MapleLeaf AKI, a novel MLLM that unlocks causal attention into modality-mutual attention (MMA) to enable image tokens to attend to text tokens. This simple yet effective design allows AKI to achieve superior performance in 12 multimodal understanding benchmarks (+7.2% on average) without introducing additional parameters and increasing training time. Our MMA design is intended to be generic, allowing for application across various modalities, and scalable to accommodate diverse multimodal scenarios. The code and model are publicly available at https://github.com/sony/aki to encourage further advancements in MLLMs across various directions.