Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

作者: Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 8 pages, 1 figure

💡 一句话要点

Team RAS提出多模态融合方法，用于野外环境下valence和arousal的连续情感识别。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态融合 深度学习 行为分析 音频处理 Transformer 时间序列建模

📋 核心要点

野外环境下的情感识别面临外观、姿态、光照等复杂因素带来的巨大挑战，现有方法难以有效应对。
论文提出一种多模态融合方法，结合面部、行为和音频信息，利用各自优势提升情感识别的准确性。
实验结果表明，该方法在Aff-Wild2数据集上取得了显著的性能提升，验证了多模态融合策略的有效性。

📝 摘要（中文）

本文提出了一种用于野外(ITW)条件下valence和arousal估计的多模态方法。由于外观、头部姿势、光照、遮挡以及个体情感表达模式的巨大差异，连续情感识别仍然是一个具有挑战性的问题。我们的方法结合了三种互补的模态：面部、行为和音频。面部模态依赖于基于GRADA的帧级别嵌入和基于Transformer的时间回归。我们使用Qwen3-VL-4B-Instruct从视频片段中提取与行为相关的信息，同时使用Mamba来建模跨片段的时间动态。音频模态依赖于具有注意力统计池化的WavLM-Large，并包括一个跨模态过滤阶段，以减少不可靠或非语音片段的影响。为了融合模态，我们探索了两种融合策略：一种是定向跨模态混合专家融合策略，该策略学习模态之间的交互并进行自适应加权；另一种是可靠性感知音频-视觉融合策略，该策略在帧级别组合视觉特征，同时使用音频作为补充上下文。结果在Aff-Wild2数据集上报告，遵循第10届野外情感行为分析(ABAW)挑战协议。实验表明，所提出的多模态融合策略在Aff-Wild2开发集上实现了0.658的Concordance Correlation Coefficient (CCC)。

🔬 方法详解

问题定义：论文旨在解决野外环境下valence和arousal的连续情感识别问题。现有方法在处理复杂环境因素（如光照变化、遮挡、头部姿态变化等）以及个体差异性情感表达时，鲁棒性较差，难以达到理想的识别精度。

核心思路：论文的核心思路是利用多模态信息互补的特性，将面部表情、行为特征和音频信息进行有效融合，从而提高情感识别的准确性和鲁棒性。通过结合不同模态的优势，可以更好地应对复杂环境带来的挑战。

技术框架：整体框架包含三个主要模态的处理分支：面部模态、行为模态和音频模态。面部模态使用GRADA和Transformer进行特征提取和时间建模；行为模态使用Qwen3-VL-4B-Instruct提取行为相关信息，并用Mamba建模时间动态；音频模态使用WavLM-Large进行特征提取，并进行跨模态过滤。最后，通过定向跨模态混合专家融合或可靠性感知音频-视觉融合策略进行模态融合。

关键创新：论文的关键创新在于多模态融合策略。提出了定向跨模态混合专家融合策略，能够自适应地学习不同模态之间的交互关系，并进行加权融合。此外，还提出了可靠性感知音频-视觉融合策略，利用音频信息作为视觉信息的补充上下文，提高融合的准确性。

关键设计：面部模态使用GRADA提取帧级别嵌入，并使用Transformer进行时间回归。行为模态使用Qwen3-VL-4B-Instruct提取视频片段的行为信息，并使用Mamba建模时间动态。音频模态使用WavLM-Large提取特征，并采用注意力统计池化。跨模态过滤阶段用于减少非语音片段的影响。融合策略包括定向跨模态混合专家融合和可靠性感知音频-视觉融合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Aff-Wild2开发集上取得了显著的性能提升，Concordance Correlation Coefficient (CCC)达到了0.658。这一结果验证了所提出的多模态融合策略的有效性，表明该方法在野外环境下的情感识别方面具有较强的竞争力。

🎯 应用场景

该研究成果可应用于人机交互、智能监控、心理健康评估等领域。通过准确识别用户的情感状态，可以实现更自然、更智能的人机交互体验。在智能监控领域，可以用于异常行为检测和预警。在心理健康评估方面，可以辅助医生进行诊断和治疗。

📄 摘要（原文）

Continuous emotion recognition in terms of valence and arousal under in-the-wild (ITW) conditions remains a challenging problem due to large variations in appearance, head pose, illumination, occlusions, and subject-specific patterns of affective expression. We present a multimodal method for valence-arousal estimation ITW. Our method combines three complementary modalities: face, behavior, and audio. The face modality relies on GRADA-based frame-level embeddings and Transformer-based temporal regression. We use Qwen3-VL-4B-Instruct to extract behavior-relevant information from video segments, while Mamba is used to model temporal dynamics across segments. The audio modality relies on WavLM-Large with attention-statistics pooling and includes a cross-modal filtering stage to reduce the influence of unreliable or non-speech segments. To fuse modalities, we explore two fusion strategies: a Directed Cross-Modal Mixture-of-Experts Fusion Strategy that learns interactions between modalities with adaptive weighting, and a Reliability-Aware Audio-Visual Fusion Strategy that combines visual features at the frame-level while using audio as complementary context. The results are reported on the Aff-Wild2 dataset following the 10th Affective Behavior Analysis in-the-Wild (ABAW) challenge protocol. Experiments demonstrate that the proposed multimodal fusion strategy achieves a Concordance Correlation Coefficient (CCC) of 0.658 on the Aff-Wild2 development set.

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理