Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

📄 arXiv: 2407.18552v4 📥 PDF

作者: Joe Dhanith P R, Shravan Venkatraman, Vigya Sharma, Santhosh Malarvannan

分类: cs.MM, cs.CL, cs.CV, cs.LG, cs.SD, eess.AS

发布日期: 2024-07-26 (更新: 2026-01-20)

🔗 代码/项目: GITHUB


💡 一句话要点

提出AVT-CA模型,利用跨注意力机制的音视频Transformer融合进行多模态情感识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 Transformer 跨注意力机制 音视频融合 分层特征表示

📋 核心要点

  1. 现有方法在多模态情感识别中,难以有效处理时间错位和异构模态融合问题,导致性能受限。
  2. AVT-CA模型通过分层视频特征表示、Transformer融合和跨注意力机制,选择性地增强一致性视听线索。
  3. 在三个基准数据集上,AVT-CA显著优于现有方法,在准确率和F1分数上均有提升,证明了其有效性。

📝 摘要(中文)

多模态情感识别(MER)旨在通过联合建模音频和视觉线索来推断人类情感。然而,现有方法通常难以处理时间错位、弱区分性特征表示以及异构模态的次优融合。为了解决这些挑战,我们提出了一种基于跨注意力的音视频Transformer架构AVT-CA,用于鲁棒的情感识别。该模型引入了分层视频特征表示,结合了通道注意力、空间注意力和局部特征提取,以强调情感显著区域,同时抑制不相关的信息。这些精细化的视觉特征通过基于Transformer的中间融合机制与音频表示集成,从而捕获跨模态的相互关联的时间依赖性。此外,交叉注意力模块选择性地增强相互一致的视听线索,从而实现有效的特征选择和噪声感知融合。在CMU-MOSEI、RAVDESS和CREMA-D三个基准数据集上的大量实验表明,AVT-CA始终优于最先进的基线,在准确率和F1分数方面均取得了显著提高。我们的源代码已在https://github.com/shravan-18/AVTCA上公开。

🔬 方法详解

问题定义:论文旨在解决多模态情感识别中,现有方法在处理音频和视频数据时,由于时间不对齐、特征区分度不高以及模态融合不佳而导致的性能瓶颈。现有方法难以有效提取情感相关的特征,并且无法充分利用不同模态之间的互补信息。

核心思路:论文的核心思路是利用Transformer架构强大的时序建模能力和跨注意力机制,实现音频和视频特征的有效融合。通过分层视频特征提取增强视觉特征的情感表达能力,并利用跨注意力机制选择性地关注一致的视听线索,从而提高情感识别的准确性和鲁棒性。

技术框架:AVT-CA模型的整体架构包含以下几个主要模块:1) 分层视频特征提取模块:利用通道注意力和空间注意力机制,提取情感相关的视觉特征。2) 音频特征提取模块:提取音频特征。3) Transformer融合模块:将音频和视频特征输入Transformer进行融合,捕获跨模态的时序依赖关系。4) 跨注意力模块:选择性地增强一致的视听线索,抑制噪声。5) 分类器:基于融合后的特征进行情感分类。

关键创新:该论文的关键创新在于:1) 提出了分层视频特征表示,能够更有效地提取情感相关的视觉特征。2) 引入了跨注意力机制,能够选择性地关注一致的视听线索,提高模型的鲁棒性。3) 将Transformer架构应用于多模态情感识别,充分利用了其强大的时序建模能力。

关键设计:在视频特征提取模块中,使用了通道注意力和空间注意力机制来增强情感相关的特征。Transformer融合模块采用了多头注意力机制,以便更好地捕获跨模态的时序依赖关系。跨注意力模块通过计算音频和视频特征之间的相似度,选择性地增强一致的线索。损失函数采用交叉熵损失函数,用于训练情感分类器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVT-CA模型在CMU-MOSEI、RAVDESS和CREMA-D三个基准数据集上进行了评估,结果表明,AVT-CA在准确率和F1分数方面均优于现有方法。例如,在CMU-MOSEI数据集上,AVT-CA的准确率比最先进的基线提高了2%以上,F1分数提高了3%以上。这些结果证明了AVT-CA模型在多模态情感识别方面的有效性。

🎯 应用场景

该研究成果可应用于情感智能交互、心理健康监测、人机交互等领域。例如,在智能客服中,可以通过分析用户的语音和面部表情来识别用户的情绪状态,从而提供更个性化的服务。在心理健康监测中,可以利用该技术来识别潜在的心理问题,并及时进行干预。该研究的未来影响在于推动情感计算的发展,使机器能够更好地理解人类的情感。

📄 摘要(原文)

Multimodal emotion recognition (MER) aims to infer human affect by jointly modeling audio and visual cues; however, existing approaches often struggle with temporal misalignment, weakly discriminative feature representations, and suboptimal fusion of heterogeneous modalities. To address these challenges, we propose AVT-CA, an Audio-Video Transformer architecture with cross attention for robust emotion recognition. The proposed model introduces a hierarchical video feature representation that combines channel attention, spatial attention, and local feature extraction to emphasize emotionally salient regions while suppressing irrelevant information. These refined visual features are integrated with audio representations through an intermediate transformer-based fusion mechanism that captures interlinked temporal dependencies across modalities. Furthermore, a cross-attention module selectively reinforces mutually consistent audio-visual cues, enabling effective feature selection and noise-aware fusion. Extensive experiments on three benchmark datasets, CMU-MOSEI, RAVDESS, and CREMA-D, demonstrate that AVT-CA consistently outperforms state-of-the-art baselines, achieving significant improvements in both accuracy and F1-score. Our source code is publicly available at https://github.com/shravan-18/AVTCA.