Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

📄 arXiv: 2603.13056v1 📥 PDF

作者: Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 8 pages, 1 figure


💡 一句话要点

Team RAS提出多模态融合方法,用于野外环境下valence和arousal的连续情感识别。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态融合 深度学习 行为分析 音频处理 Transformer 时间序列建模

📋 核心要点

  1. 野外环境下的情感识别面临外观、姿态、光照等复杂因素带来的巨大挑战,现有方法难以有效应对。
  2. 论文提出一种多模态融合方法,结合面部、行为和音频信息,利用各自优势提升情感识别的准确性。
  3. 实验结果表明,该方法在Aff-Wild2数据集上取得了显著的性能提升,验证了多模态融合策略的有效性。

📝 摘要(中文)

本文提出了一种用于野外(ITW)条件下valence和arousal估计的多模态方法。由于外观、头部姿势、光照、遮挡以及个体情感表达模式的巨大差异,连续情感识别仍然是一个具有挑战性的问题。我们的方法结合了三种互补的模态:面部、行为和音频。面部模态依赖于基于GRADA的帧级别嵌入和基于Transformer的时间回归。我们使用Qwen3-VL-4B-Instruct从视频片段中提取与行为相关的信息,同时使用Mamba来建模跨片段的时间动态。音频模态依赖于具有注意力统计池化的WavLM-Large,并包括一个跨模态过滤阶段,以减少不可靠或非语音片段的影响。为了融合模态,我们探索了两种融合策略:一种是定向跨模态混合专家融合策略,该策略学习模态之间的交互并进行自适应加权;另一种是可靠性感知音频-视觉融合策略,该策略在帧级别组合视觉特征,同时使用音频作为补充上下文。结果在Aff-Wild2数据集上报告,遵循第10届野外情感行为分析(ABAW)挑战协议。实验表明,所提出的多模态融合策略在Aff-Wild2开发集上实现了0.658的Concordance Correlation Coefficient (CCC)。

🔬 方法详解

问题定义:论文旨在解决野外环境下valence和arousal的连续情感识别问题。现有方法在处理复杂环境因素(如光照变化、遮挡、头部姿态变化等)以及个体差异性情感表达时,鲁棒性较差,难以达到理想的识别精度。

核心思路:论文的核心思路是利用多模态信息互补的特性,将面部表情、行为特征和音频信息进行有效融合,从而提高情感识别的准确性和鲁棒性。通过结合不同模态的优势,可以更好地应对复杂环境带来的挑战。

技术框架:整体框架包含三个主要模态的处理分支:面部模态、行为模态和音频模态。面部模态使用GRADA和Transformer进行特征提取和时间建模;行为模态使用Qwen3-VL-4B-Instruct提取行为相关信息,并用Mamba建模时间动态;音频模态使用WavLM-Large进行特征提取,并进行跨模态过滤。最后,通过定向跨模态混合专家融合或可靠性感知音频-视觉融合策略进行模态融合。

关键创新:论文的关键创新在于多模态融合策略。提出了定向跨模态混合专家融合策略,能够自适应地学习不同模态之间的交互关系,并进行加权融合。此外,还提出了可靠性感知音频-视觉融合策略,利用音频信息作为视觉信息的补充上下文,提高融合的准确性。

关键设计:面部模态使用GRADA提取帧级别嵌入,并使用Transformer进行时间回归。行为模态使用Qwen3-VL-4B-Instruct提取视频片段的行为信息,并使用Mamba建模时间动态。音频模态使用WavLM-Large提取特征,并采用注意力统计池化。跨模态过滤阶段用于减少非语音片段的影响。融合策略包括定向跨模态混合专家融合和可靠性感知音频-视觉融合。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在Aff-Wild2开发集上取得了显著的性能提升,Concordance Correlation Coefficient (CCC)达到了0.658。这一结果验证了所提出的多模态融合策略的有效性,表明该方法在野外环境下的情感识别方面具有较强的竞争力。

🎯 应用场景

该研究成果可应用于人机交互、智能监控、心理健康评估等领域。通过准确识别用户的情感状态,可以实现更自然、更智能的人机交互体验。在智能监控领域,可以用于异常行为检测和预警。在心理健康评估方面,可以辅助医生进行诊断和治疗。

📄 摘要(原文)

Continuous emotion recognition in terms of valence and arousal under in-the-wild (ITW) conditions remains a challenging problem due to large variations in appearance, head pose, illumination, occlusions, and subject-specific patterns of affective expression. We present a multimodal method for valence-arousal estimation ITW. Our method combines three complementary modalities: face, behavior, and audio. The face modality relies on GRADA-based frame-level embeddings and Transformer-based temporal regression. We use Qwen3-VL-4B-Instruct to extract behavior-relevant information from video segments, while Mamba is used to model temporal dynamics across segments. The audio modality relies on WavLM-Large with attention-statistics pooling and includes a cross-modal filtering stage to reduce the influence of unreliable or non-speech segments. To fuse modalities, we explore two fusion strategies: a Directed Cross-Modal Mixture-of-Experts Fusion Strategy that learns interactions between modalities with adaptive weighting, and a Reliability-Aware Audio-Visual Fusion Strategy that combines visual features at the frame-level while using audio as complementary context. The results are reported on the Aff-Wild2 dataset following the 10th Affective Behavior Analysis in-the-Wild (ABAW) challenge protocol. Experiments demonstrate that the proposed multimodal fusion strategy achieves a Concordance Correlation Coefficient (CCC) of 0.658 on the Aff-Wild2 development set.