Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

作者: Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 8 pages, 2 figures

💡 一句话要点

Team LEYA提出多模态融合方法，用于解决非约束视频中的犹豫/矛盾情绪识别问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 情绪识别 犹豫/矛盾情绪 VideoMAE EmotionWav2Vec2.0

📋 核心要点

非约束视频中的犹豫/矛盾情绪识别极具挑战，因为其行为状态微妙、多模态且依赖于上下文。
论文提出一种多模态融合方法，整合场景、面部、音频和文本信息，以更全面地捕捉犹豫/矛盾情绪。
实验结果表明，多模态融合方法显著优于单模态方法，最佳融合模型在BAH语料库上MF1值达到83.25%。

📝 摘要（中文）

本文提出了一种多模态方法，用于解决第十届ABAW竞赛中的视频级别犹豫/矛盾情绪识别问题。该方法集成了场景、面部、音频和文本四种互补模态的信息。场景动态由基于VideoMAE的模型捕获，面部信息通过情感帧级别嵌入和统计池化进行编码，音频表示通过EmotionWav2Vec2.0提取并由基于Mamba的时序编码器处理，语言线索则使用微调的Transformer文本模型进行建模。最终的单模态嵌入通过多模态融合模型（包括原型增强变体）进行组合。在BAH语料库上的实验表明，多模态融合明显优于所有单模态基线。最佳单模态配置的平均MF1为70.02%，而最佳多模态融合模型的平均MF1达到83.25%。通过集成五个原型增强融合模型，获得了71.43%的最高最终测试性能。结果强调了互补的多模态线索和鲁棒的融合策略对于犹豫/矛盾情绪识别的重要性。

🔬 方法详解

问题定义：论文旨在解决非约束视频中犹豫/矛盾情绪识别的难题。现有方法通常依赖于单一模态的信息，难以捕捉到犹豫/矛盾情绪的细微变化和上下文依赖性，导致识别精度不高。

核心思路：论文的核心思路是利用多模态融合，将视频中的场景、面部表情、声音和文本信息结合起来，从而更全面、准确地识别犹豫/矛盾情绪。通过整合不同模态的互补信息，可以有效提高识别的鲁棒性和准确性。

技术框架：整体框架包括四个主要模块：场景信息提取模块（VideoMAE），面部信息提取模块（情感帧级别嵌入+统计池化），音频信息提取模块（EmotionWav2Vec2.0+Mamba时序编码器），以及文本信息提取模块（微调的Transformer文本模型）。然后，将这些单模态特征进行融合，使用多模态融合模型（包括原型增强变体）进行最终的犹豫/矛盾情绪识别。

关键创新：论文的关键创新在于多模态融合策略，特别是原型增强融合模型的使用。原型增强融合模型能够更好地利用不同模态之间的关系，并提高模型的泛化能力。此外，使用Mamba模型进行音频时序建模也是一个亮点。

关键设计：在场景信息提取中，使用VideoMAE模型学习视频的视觉表征。面部信息提取采用情感帧级别嵌入，并通过统计池化进行聚合。音频信息提取使用EmotionWav2Vec2.0提取特征，并使用Mamba模型进行时序建模。文本信息提取则使用微调的Transformer模型。最终，使用原型增强融合模型将这些特征进行融合，并使用交叉熵损失函数进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，多模态融合方法显著优于单模态方法。最佳单模态配置的平均MF1为70.02%，而最佳多模态融合模型的平均MF1达到83.25%，提升了13.23%。通过集成五个原型增强融合模型，获得了71.43%的最高最终测试性能，验证了多模态融合的有效性。

🎯 应用场景

该研究成果可应用于人机交互、心理健康评估、市场调研等领域。例如，在人机交互中，可以帮助机器更好地理解人类的情绪状态，从而做出更自然、更符合人类意图的反应。在心理健康评估中，可以辅助医生诊断患者的情绪问题。在市场调研中，可以帮助企业了解消费者对产品的真实态度。

📄 摘要（原文）

Ambivalence/hesitancy recognition in unconstrained videos is a challenging problem due to the subtle, multimodal, and context-dependent nature of this behavioral state. In this paper, a multimodal approach for video-level ambivalence/hesitancy recognition is presented for the 10th ABAW Competition. The proposed approach integrates four complementary modalities: scene, face, audio, and text. Scene dynamics are captured with a VideoMAE-based model, facial information is encoded through emotional frame-level embeddings aggregated by statistical pooling, acoustic representations are extracted with EmotionWav2Vec2.0 and processed by a Mamba-based temporal encoder, and linguistic cues are modeled using fine-tuned transformer-based text models. The resulting unimodal embeddings are further combined using multimodal fusion models, including prototype-augmented variants. Experiments on the BAH corpus demonstrate clear gains of multimodal fusion over all unimodal baselines. The best unimodal configuration achieved an average MF1 of 70.02%, whereas the best multimodal fusion model reached 83.25%. The highest final test performance, 71.43%, was obtained by an ensemble of five prototype-augmented fusion models. The obtained results highlight the importance of complementary multimodal cues and robust fusion strategies for ambivalence/hesitancy recognition.

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理