Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

作者: Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim

分类: cs.CV, cs.AI

发布日期: 2026-03-12

备注: 7 pages

💡 一句话要点

提出基于双向跨注意力与时序建模的多模态情感识别框架，提升野外视频情感识别性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态融合 跨注意力机制 时间卷积网络 预训练模型 对比学习 野外视频

📋 核心要点

现有情感识别方法难以有效处理野外视频中复杂多变的因素，如光照、姿态和噪声。
利用预训练模型提取视觉和听觉特征，并通过双向跨注意力机制实现模态间的有效融合。
实验表明，该框架在ABAW EXPR基准上表现出色，验证了多模态融合的有效性。

📝 摘要（中文）

本文提出了一种用于野外视频数据多模态情感识别的框架，旨在解决面部外观、头部姿势、光照、背景噪声以及人类情感动态性带来的挑战。该方法利用大规模预训练模型CLIP进行视觉编码，Wav2Vec 2.0进行音频表征学习，作为固定的骨干网络。为了对人脸表情序列中的时间依赖性进行建模，采用时间卷积网络（TCN）处理固定长度的视频窗口。此外，引入双向跨注意力融合模块，使视觉和音频特征对称交互，以增强跨模态上下文信息并捕获互补的情感信息。最后，使用轻量级分类头进行情感预测。进一步结合基于CLIP文本特征的文本引导对比学习目标，鼓励语义对齐的视觉表征。在ABAW 10th EXPR基准测试上的实验结果表明，该框架提供了一个强大的多模态基线，并实现了优于单模态建模的性能。

🔬 方法详解

问题定义：论文旨在解决野外视频情感识别问题，现有方法难以有效融合多种模态信息，且对视频中的时间依赖关系建模不足，导致识别精度不高。

核心思路：论文的核心思路是利用预训练模型提取鲁棒的视觉和听觉特征，并通过双向跨注意力机制实现跨模态信息的有效融合，同时利用时间卷积网络（TCN）对视频中的时间依赖关系进行建模，从而提升情感识别的准确性。

技术框架：该框架主要包含以下几个模块：1) 使用CLIP提取视觉特征；2) 使用Wav2Vec 2.0提取音频特征；3) 使用时间卷积网络（TCN）对视觉特征进行时序建模；4) 使用双向跨注意力模块融合视觉和音频特征；5) 使用轻量级分类头进行情感预测；6) 使用文本引导的对比学习目标来提升视觉特征的语义对齐性。

关键创新：该方法的主要创新点在于提出了双向跨注意力融合模块，该模块允许视觉和音频特征进行对称交互，从而更有效地捕获跨模态的互补信息。此外，结合文本引导的对比学习目标，进一步提升了视觉特征的语义表达能力。

关键设计：在双向跨注意力模块中，视觉和音频特征通过注意力机制相互影响，从而实现信息的融合。TCN采用固定长度的视频窗口进行时序建模。文本引导的对比学习目标基于CLIP的文本特征，鼓励视觉特征与对应的文本描述对齐。损失函数包括交叉熵损失和对比学习损失。

🖼️ 关键图片

📊 实验亮点

该方法在ABAW 10th EXPR基准测试上取得了显著的性能提升，证明了其有效性。相较于单模态方法，多模态融合策略能够更全面地捕捉情感信息，从而提高识别准确率。实验结果表明，双向跨注意力机制和文本引导对比学习目标能够有效提升模型的性能。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、心理健康评估等领域。通过准确识别视频中的情感信息，可以提升监控系统的智能化水平，改善人机交互体验，并为心理健康评估提供客观依据。未来，该技术有望在情感计算领域发挥重要作用。

📄 摘要（原文）

Emotion recognition in in-the-wild video data remains a challenging problem due to large variations in facial appearance, head pose, illumination, background noise, and the inherently dynamic nature of human affect. Relying on a single modality, such as facial expressions or speech, is often insufficient to capture these complex emotional cues. To address this issue, we propose a multimodal emotion recognition framework for the Expression (EXPR) Recognition task in the 10th Affective Behavior Analysis in-the-wild (ABAW) Challenge. Our approach leverages large-scale pre-trained models, namely CLIP for visual encoding and Wav2Vec 2.0 for audio representation learning, as frozen backbone networks. To model temporal dependencies in facial expression sequences, we employ a Temporal Convolutional Network (TCN) over fixed-length video windows. In addition, we introduce a bi-directional cross-attention fusion module, in which visual and audio features interact symmetrically to enhance cross-modal contextualization and capture complementary emotional information. A lightweight classification head is then used for final emotion prediction. We further incorporate a text-guided contrastive objective based on CLIP text features to encourage semantically aligned visual representations. Experimental results on the ABAW 10th EXPR benchmark show that the proposed framework provides a strong multimodal baseline and achieves improved performance over unimodal modeling. These results demonstrate the effectiveness of combining temporal visual modeling, audio representation learning, and cross-modal fusion for robust emotion recognition in unconstrained real-world environments.

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理