Two-Stage Multimodal Framework for Emotion Mimicry Intensity Prediction
作者: Dinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara
分类: cs.CV, cs.AI, cs.HC
发布日期: 2026-05-21
备注: 10th Affective & Behavior Analysis in-the-wild, CVPR Workshop 2026
💡 一句话要点
提出用于情感模仿强度预测的两阶段多模态融合框架,在Hume-ABAW10挑战赛中获得第三名。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感模仿强度预测 多模态融合 深度学习 Hume-ABAW10 情感计算
📋 核心要点
- 现有情感模仿强度预测方法难以有效融合多模态信息,且模型泛化能力有待提升。
- 提出一种两阶段多模态框架,先独立学习各模态特征,再通过轻量级回归器进行融合,并引入模态dropout。
- 在Hume-ABAW10 EMI挑战赛中,该方法取得了第三名的成绩,验证了其有效性和实用性。
📝 摘要(中文)
本文介绍了提交给Hume-ABAW10情感模仿强度(EMI)挑战赛的方案,该挑战赛旨在预测六个连续的情感强度维度:钦佩、娱乐、决心、同情痛苦、兴奋和喜悦,数据来源于真实场景下的多模态视频片段。我们提出了一个分阶段的多模态框架,该框架结合了文本、声音和视觉表征,并可选地加入运动分支。我们的方法首先独立训练模态特定的编码器,然后通过一个轻量级的回归器融合它们学习到的表征,该回归器具有模态dropout和可控的编码器自适应能力。在提交的系统中,最佳验证性能由文本-音频-视觉-运动融合模型在扩展的4:1分割下获得,实现了0.4722的平均皮尔逊相关系数。虽然运动分支仅产生非常小的增益,但其行为值得研究。我们的团队在EMI挑战赛中获得第三名,测试集的平均皮尔逊相关系数为0.57。总的来说,我们为EMI预测提供了一个实用且可复现的基线。
🔬 方法详解
问题定义:情感模仿强度预测(EMI)旨在根据多模态数据(如视频、音频、文本)预测个体在特定情感维度上的强度。现有方法在处理真实场景下的复杂数据时,往往难以有效融合不同模态的信息,并且模型的泛化能力受到限制。此外,如何有效利用运动信息也是一个挑战。
核心思路:本文的核心思路是采用两阶段的多模态融合框架。第一阶段,独立训练各个模态的编码器,使其能够充分学习各自模态的特征表示。第二阶段,使用一个轻量级的回归器融合这些特征表示,并通过模态dropout来提高模型的鲁棒性和泛化能力。这种分阶段的方法可以更好地解耦不同模态的学习过程,并允许对每个模态进行独立的优化。
技术框架:该框架主要包含以下几个模块:1) 模态特定编码器:分别用于提取文本、音频、视觉和运动特征。2) 特征融合模块:使用一个轻量级的回归器将各个模态的特征进行融合。3) 模态Dropout:在训练过程中随机dropout某些模态的特征,以提高模型的鲁棒性。4) 可控的编码器自适应:在融合阶段,允许对预训练的编码器进行微调,以适应多模态融合的任务。
关键创新:该方法的主要创新点在于:1) 两阶段的训练策略,允许对每个模态进行独立优化,并更好地解耦不同模态的学习过程。2) 轻量级的回归器,可以有效地融合多模态特征,同时避免引入过多的参数。3) 模态dropout,可以提高模型的鲁棒性和泛化能力。4) 探索了运动信息在情感模仿强度预测中的作用。
关键设计:文本模态使用预训练的Transformer模型进行编码。音频模态使用卷积神经网络(CNN)提取声学特征。视觉模态使用ResNet等深度学习模型提取视觉特征。运动模态使用光流法提取运动信息,并使用CNN进行编码。回归器采用多层感知机(MLP)。损失函数采用均方误差(MSE)或皮尔逊相关系数损失。模态dropout的概率设置为0.5。
🖼️ 关键图片
📊 实验亮点
该方法在Hume-ABAW10 EMI挑战赛中取得了第三名的成绩,测试集上的平均皮尔逊相关系数为0.57。在验证集上,文本-音频-视觉-运动融合模型在扩展的4:1分割下获得了0.4722的平均皮尔逊相关系数。实验结果表明,该方法能够有效地融合多模态信息,并提高情感模仿强度预测的准确性。虽然运动分支的增益有限,但其行为值得进一步研究。
🎯 应用场景
该研究成果可应用于情感计算、人机交互、心理健康评估等领域。例如,可以开发情感智能机器人,使其能够更准确地理解人类的情感状态,并做出相应的反应。此外,该技术还可以用于在线教育、心理咨询等场景,以提高服务质量和用户体验。未来,该研究可以进一步扩展到其他情感相关的任务,如情感识别、情感生成等。
📄 摘要(原文)
We present our submission to the Hume-ABAW10 Emotional Mimicry Intensity (EMI) Challenge, which aims to predict six continuous emotion intensity dimensions: Admiration, Amusement, Determination, Empathic Pain, Excitement, and Joy, from in-the-wild multimodal video clips. We propose a staged multimodal framework that combines textual, acoustic, and visual representations, with an optional motion branch. Our approach first trains modality-specific encoders independently and then fuses their learned representations through a lightweight regressor with modality dropout and controlled encoder adaptation. Across our submitted systems, the best validation performance is obtained by the text--audio--vision--motion fusion model under the expanded 4:1 split, achieving an average Pearson correlation of 0.4722. Although the motion branch yields only very slight gains, its behavior can be interesting to study. Our team was placed third in the EMI challenge, achieving an average Pearson correlation of 0.57 for the test set. Overall, we provide a practical and reproducible baseline for EMI prediction.