CAGMamba: Context-Aware Gated Cross-Modal Mamba Network for Multimodal Sentiment Analysis
作者: Minghai Jiao, Jing Xiao, Peng Xiao, Ende Zhang, Shuang Kan, Wenyan Jiang, Jinyao Li, Yixian Liu, Haidong Xin
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
提出CAGMamba,利用上下文感知门控跨模态Mamba网络进行多模态情感分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感分析 Mamba 跨模态融合 上下文建模 门控机制
📋 核心要点
- 现有MSA方法依赖Transformer,计算复杂度高,难以扩展,且缺乏对对话历史情感演变的建模。
- CAGMamba将上下文和当前话语特征组织成时间序列,利用Mamba建模情感演变,并提出GCMN实现可控的跨模态融合。
- 在三个基准数据集上,CAGMamba在多个评估指标上取得了SOTA或具有竞争力的结果,验证了其有效性。
📝 摘要(中文)
多模态情感分析(MSA)需要在保持计算效率的同时,有效地建模跨模态交互和上下文依赖关系。现有的融合方法主要依赖于基于Transformer的跨模态注意力机制,这导致了相对于序列长度的二次复杂度,并限制了可扩展性。此外,来自先前话语的上下文信息通常通过连接或独立融合来合并,而没有显式的时间建模来捕获对话轮次中的情感演变。为了解决这些限制,我们提出了CAGMamba,一个用于基于对话的情感分析的上下文感知门控跨模态Mamba框架。具体来说,我们将上下文特征和当前话语特征组织成一个时间排序的二元序列,这为Mamba提供了显式的时间结构,用于建模情感演变。为了进一步实现可控的跨模态集成,我们提出了一个门控跨模态Mamba网络(GCMN),它通过可学习的门控集成跨模态和单模态路径,以平衡信息融合和模态保留,并使用文本、音频和融合预测上的三分支多任务目标进行训练。在三个基准数据集上的实验表明,CAGMamba在多个评估指标上实现了最先进或具有竞争力的结果。所有代码都可以在this https URL上找到。
🔬 方法详解
问题定义:多模态情感分析旨在理解文本、音频和视频等多模态信息中所蕴含的情感。现有方法,特别是基于Transformer的方法,在处理长序列时计算复杂度高,难以扩展到更长的对话历史。此外,现有方法通常独立地融合上下文信息,忽略了对话中情感随时间演变的动态过程。
核心思路:本文的核心思路是利用Mamba架构的线性复杂度来解决Transformer的计算瓶颈,并显式地建模对话历史中的情感演变。通过将上下文和当前话语特征组织成时间序列,Mamba能够有效地捕捉情感的动态变化。同时,引入门控机制来控制跨模态信息的融合程度,平衡信息融合和模态独立性。
技术框架:CAGMamba框架主要包含以下几个模块:1) 特征提取模块,用于提取文本、音频和视频的特征;2) 上下文感知模块,将上下文特征和当前话语特征组织成时间序列;3) Gated Cross-Modal Mamba Network (GCMN),利用Mamba架构进行跨模态融合和情感预测;4) 多任务学习模块,同时预测文本、音频和融合的情感,以提高模型的泛化能力。
关键创新:CAGMamba的关键创新在于:1) 使用Mamba架构替代Transformer,降低了计算复杂度,提高了可扩展性;2) 显式地建模了对话历史中的情感演变,提高了情感预测的准确性;3) 提出了GCMN,通过门控机制实现可控的跨模态融合。
关键设计:GCMN包含跨模态和单模态两条路径,通过可学习的门控机制来控制两条路径的权重。损失函数采用三分支多任务目标,同时优化文本、音频和融合的情感预测。时间序列的构建方式是将上下文特征和当前话语特征按照时间顺序排列,形成一个二元序列,输入到Mamba模型中。
🖼️ 关键图片
📊 实验亮点
CAGMamba在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集上进行了评估,实验结果表明,CAGMamba在多个评估指标上取得了SOTA或具有竞争力的结果。例如,在CMU-MOSI数据集上,CAGMamba的Accuracy和F1-score均优于现有方法。
🎯 应用场景
CAGMamba可应用于智能客服、在线教育、心理咨询等领域,通过分析用户在对话中的情感变化,提供更个性化和人性化的服务。该研究成果有助于提升人机交互的自然性和有效性,并为情感计算领域的发展提供新的思路。
📄 摘要(原文)
Multimodal Sentiment Analysis (MSA) requires effective modeling of cross-modal interactions and contextual dependencies while remaining computationally efficient. Existing fusion approaches predominantly rely on Transformer-based cross-modal attention, which incurs quadratic complexity with respect to sequence length and limits scalability. Moreover, contextual information from preceding utterances is often incorporated through concatenation or independent fusion, without explicit temporal modeling that captures sentiment evolution across dialogue turns. To address these limitations, we propose CAGMamba, a context-aware gated cross-modal Mamba framework for dialogue-based sentiment analysis. Specifically, we organize the contextual and the current-utterance features into a temporally ordered binary sequence, which provides Mamba with explicit temporal structure for modeling sentiment evolution. To further enable controllable cross-modal integration, we propose a Gated Cross-Modal Mamba Network (GCMN) that integrates cross-modal and unimodal paths via learnable gating to balance information fusion and modality preservation, and is trained with a three-branch multi-task objective over text, audio, and fused predictions. Experiments on three benchmark datasets demonstrate that CAGMamba achieves state-of-the-art or competitive results across multiple evaluation metrics. All codes are available atthis https URL.