MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

📄 arXiv: 2507.04635v1 📥 PDF

作者: Zhicheng Zhang, Wuyou Xia, Chenxi Zhao, Zhou Yan, Xiaoqiang Liu, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

分类: cs.CV

发布日期: 2025-07-07

备注: ICML 2025 (Spotlight, Top 2.6%)


💡 一句话要点

提出MODA:通过模块化双工注意力机制增强多模态感知、认知和情感理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 注意力机制 跨模态对齐 情感理解 认知推理

📋 核心要点

  1. 现有MLLM方法在处理需要细粒度认知和情感理解的任务时,由于跨模态注意力不一致和逐层衰减的注意力激活,存在“注意力缺陷”问题。
  2. MODA通过模块化双工注意力机制,采用“先对齐后纠正”的策略,解耦模态对齐和跨层token混合,从而解决注意力缺陷问题。
  3. 在21个基准数据集上的实验表明,MODA在感知、认知和情感任务中表现出显著的有效性,验证了其在多模态理解方面的优越性。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLMs)凭借其通用注意力架构,在整合多模态数据方面表现出强大的能力。然而,现有先进方法主要侧重于以语言为中心的微调,较少探索通过注意力机制混合的多模态tokens,这给需要细粒度认知和情感理解的高级任务带来了挑战。本文指出多模态学习中存在的注意力缺陷问题,该问题由不一致的跨模态注意力和逐层衰减的注意力激活导致。为了解决这个问题,我们提出了一种新颖的注意力机制,称为模块化双工注意力(MODA),它同时进行模态内细化和模态间交互。MODA采用了一种先对齐后纠正的策略,有效地将模态对齐与跨层token混合解耦。在对齐阶段,tokens基于基向量被映射到双工模态空间,从而实现视觉和语言模态之间的交互。此外,通过自适应掩码注意力确保注意力分数的正确性,通过允许为不同模态定制掩码模式来增强模型的灵活性。在21个基准数据集上的大量实验验证了MODA在感知、认知和情感任务中的有效性。

🔬 方法详解

问题定义:现有的多模态大型语言模型(MLLMs)在处理需要细粒度认知和情感理解的任务时,存在“注意力缺陷”问题。这种缺陷主要体现在两个方面:一是跨模态注意力不一致,导致模型无法准确捕捉不同模态之间的关联;二是逐层衰减的注意力激活,使得深层网络难以有效利用早期层的信息。这些问题限制了模型在高层次多模态任务中的表现。

核心思路:MODA的核心思路是采用一种“先对齐后纠正”的策略,将模态对齐与跨层token混合解耦。首先,通过双工模态空间将不同模态的tokens进行对齐,使其能够在统一的空间中进行交互。然后,通过自适应掩码注意力机制,纠正注意力分数,确保其正确性,从而提高模型的性能。这种设计旨在解决跨模态注意力不一致和逐层衰减的注意力激活问题。

技术框架:MODA的整体框架包括两个主要阶段:模态对齐阶段和注意力计算阶段。在模态对齐阶段,输入的不同模态的tokens首先被映射到双工模态空间,这个空间由一组基向量定义,每个模态都有其对应的基向量。在注意力计算阶段,使用自适应掩码注意力机制计算tokens之间的注意力分数,并根据掩码模式对分数进行调整。最后,将注意力权重应用于tokens,得到最终的输出。

关键创新:MODA最重要的技术创新点在于其模块化双工注意力机制,该机制能够同时进行模态内细化和模态间交互。与现有方法相比,MODA通过双工模态空间实现了更有效的模态对齐,并通过自适应掩码注意力机制提高了注意力分数的准确性。这种设计使得模型能够更好地捕捉不同模态之间的关联,并有效利用早期层的信息。

关键设计:MODA的关键设计包括以下几个方面:双工模态空间的基向量选择,自适应掩码注意力机制的掩码模式设计,以及损失函数的设计。基向量的选择会影响模态对齐的效果,掩码模式的设计会影响注意力分数的准确性,损失函数的设计会影响模型的训练效果。具体的参数设置和网络结构细节在论文中进行了详细描述,但具体数值未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MODA在21个基准数据集上进行了广泛的实验验证,结果表明其在感知、认知和情感任务中均取得了显著的性能提升。具体的性能数据和对比基线在论文中进行了详细描述,但具体数值未知。总体而言,MODA在多模态理解方面表现出优越的性能,验证了其有效性。

🎯 应用场景

MODA在多模态感知、认知和情感理解方面具有广泛的应用前景。例如,可以应用于智能客服,通过理解用户的语音和文本信息来提供更准确的帮助;可以应用于情感分析,通过分析用户的面部表情和语言来判断其情绪状态;还可以应用于医疗诊断,通过分析医学图像和病历信息来辅助医生进行诊断。MODA的实际价值在于提高多模态信息处理的效率和准确性,未来有望在人机交互、智能医疗、智能安防等领域发挥重要作用。

📄 摘要(原文)

Multimodal large language models (MLLMs) recently showed strong capacity in integrating data among multiple modalities, empowered by a generalizable attention architecture. Advanced methods predominantly focus on language-centric tuning while less exploring multimodal tokens mixed through attention, posing challenges in high-level tasks that require fine-grained cognition and emotion understanding. In this work, we identify the attention deficit disorder problem in multimodal learning, caused by inconsistent cross-modal attention and layer-by-layer decayed attention activation. To address this, we propose a novel attention mechanism, termed MOdular Duplex Attention (MODA), simultaneously conducting the inner-modal refinement and inter-modal interaction. MODA employs a correct-after-align strategy to effectively decouple modality alignment from cross-layer token mixing. In the alignment phase, tokens are mapped to duplex modality spaces based on the basis vectors, enabling the interaction between visual and language modality. Further, the correctness of attention scores is ensured through adaptive masked attention, which enhances the model's flexibility by allowing customizable masking patterns for different modalities. Extensive experiments on 21 benchmark datasets verify the effectiveness of MODA in perception, cognition, and emotion tasks. Source code and demo are available in https://zzcheng.top/MODA.