Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

📄 arXiv: 2603.12848v1 📥 PDF

作者: Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 8 pages, 2 figures


💡 一句话要点

Team LEYA提出多模态融合方法,用于解决非约束视频中的犹豫/矛盾情绪识别问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 情绪识别 犹豫/矛盾情绪 VideoMAE EmotionWav2Vec2.0

📋 核心要点

  1. 非约束视频中的犹豫/矛盾情绪识别极具挑战,因为其行为状态微妙、多模态且依赖于上下文。
  2. 论文提出一种多模态融合方法,整合场景、面部、音频和文本信息,以更全面地捕捉犹豫/矛盾情绪。
  3. 实验结果表明,多模态融合方法显著优于单模态方法,最佳融合模型在BAH语料库上MF1值达到83.25%。

📝 摘要(中文)

本文提出了一种多模态方法,用于解决第十届ABAW竞赛中的视频级别犹豫/矛盾情绪识别问题。该方法集成了场景、面部、音频和文本四种互补模态的信息。场景动态由基于VideoMAE的模型捕获,面部信息通过情感帧级别嵌入和统计池化进行编码,音频表示通过EmotionWav2Vec2.0提取并由基于Mamba的时序编码器处理,语言线索则使用微调的Transformer文本模型进行建模。最终的单模态嵌入通过多模态融合模型(包括原型增强变体)进行组合。在BAH语料库上的实验表明,多模态融合明显优于所有单模态基线。最佳单模态配置的平均MF1为70.02%,而最佳多模态融合模型的平均MF1达到83.25%。通过集成五个原型增强融合模型,获得了71.43%的最高最终测试性能。结果强调了互补的多模态线索和鲁棒的融合策略对于犹豫/矛盾情绪识别的重要性。

🔬 方法详解

问题定义:论文旨在解决非约束视频中犹豫/矛盾情绪识别的难题。现有方法通常依赖于单一模态的信息,难以捕捉到犹豫/矛盾情绪的细微变化和上下文依赖性,导致识别精度不高。

核心思路:论文的核心思路是利用多模态融合,将视频中的场景、面部表情、声音和文本信息结合起来,从而更全面、准确地识别犹豫/矛盾情绪。通过整合不同模态的互补信息,可以有效提高识别的鲁棒性和准确性。

技术框架:整体框架包括四个主要模块:场景信息提取模块(VideoMAE),面部信息提取模块(情感帧级别嵌入+统计池化),音频信息提取模块(EmotionWav2Vec2.0+Mamba时序编码器),以及文本信息提取模块(微调的Transformer文本模型)。然后,将这些单模态特征进行融合,使用多模态融合模型(包括原型增强变体)进行最终的犹豫/矛盾情绪识别。

关键创新:论文的关键创新在于多模态融合策略,特别是原型增强融合模型的使用。原型增强融合模型能够更好地利用不同模态之间的关系,并提高模型的泛化能力。此外,使用Mamba模型进行音频时序建模也是一个亮点。

关键设计:在场景信息提取中,使用VideoMAE模型学习视频的视觉表征。面部信息提取采用情感帧级别嵌入,并通过统计池化进行聚合。音频信息提取使用EmotionWav2Vec2.0提取特征,并使用Mamba模型进行时序建模。文本信息提取则使用微调的Transformer模型。最终,使用原型增强融合模型将这些特征进行融合,并使用交叉熵损失函数进行训练。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,多模态融合方法显著优于单模态方法。最佳单模态配置的平均MF1为70.02%,而最佳多模态融合模型的平均MF1达到83.25%,提升了13.23%。通过集成五个原型增强融合模型,获得了71.43%的最高最终测试性能,验证了多模态融合的有效性。

🎯 应用场景

该研究成果可应用于人机交互、心理健康评估、市场调研等领域。例如,在人机交互中,可以帮助机器更好地理解人类的情绪状态,从而做出更自然、更符合人类意图的反应。在心理健康评估中,可以辅助医生诊断患者的情绪问题。在市场调研中,可以帮助企业了解消费者对产品的真实态度。

📄 摘要(原文)

Ambivalence/hesitancy recognition in unconstrained videos is a challenging problem due to the subtle, multimodal, and context-dependent nature of this behavioral state. In this paper, a multimodal approach for video-level ambivalence/hesitancy recognition is presented for the 10th ABAW Competition. The proposed approach integrates four complementary modalities: scene, face, audio, and text. Scene dynamics are captured with a VideoMAE-based model, facial information is encoded through emotional frame-level embeddings aggregated by statistical pooling, acoustic representations are extracted with EmotionWav2Vec2.0 and processed by a Mamba-based temporal encoder, and linguistic cues are modeled using fine-tuned transformer-based text models. The resulting unimodal embeddings are further combined using multimodal fusion models, including prototype-augmented variants. Experiments on the BAH corpus demonstrate clear gains of multimodal fusion over all unimodal baselines. The best unimodal configuration achieved an average MF1 of 70.02%, whereas the best multimodal fusion model reached 83.25%. The highest final test performance, 71.43%, was obtained by an ensemble of five prototype-augmented fusion models. The obtained results highlight the importance of complementary multimodal cues and robust fusion strategies for ambivalence/hesitancy recognition.