Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition
作者: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu
分类: cs.CV, cs.AI
发布日期: 2025-03-13 (更新: 2025-03-25)
💡 一句话要点
提出双阶段跨模态对齐框架,提升野外环境下情感模仿强度估计精度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感模仿强度估计 跨模态对齐 对比学习 时间卷积网络 长短期记忆网络 动态融合 质量引导
📋 核心要点
- 现有方法在跨模态信息融合、噪声鲁棒性和细粒度对齐方面存在不足,限制了情感模仿强度估计的精度。
- 提出双阶段跨模态对齐框架,利用对比学习进行特征空间对齐,并采用动态融合模块捕获时间信息。
- 实验结果表明,该方法在Hume-Vidmimic2数据集上表现优异,并在ABAW竞赛中获得亚军,验证了其有效性。
📝 摘要(中文)
情感模仿强度(EMI)估计在理解人类社会行为和促进人机交互方面起着关键作用。核心挑战在于动态相关性建模和多模态时间信号的鲁棒融合。为了解决现有方法的局限性,如跨模态协同利用不足、对噪声敏感以及细粒度对齐能力受限,本文提出了一种双阶段跨模态对齐框架。第一阶段,开发了基于CLIP架构的视觉-文本和音频-文本对比学习网络,通过模态解耦预训练实现初步的特征空间对齐。第二阶段,引入了时间感知动态融合模块,该模块集成了时间卷积网络(TCN)和门控双向LSTM,分别捕获面部表情的宏观演变模式和声学特征的局部动态。一种新颖的质量引导融合策略进一步实现了可微的权重分配,用于在遮挡和噪声下进行模态补偿。在Hume-Vidmimic2数据集上的实验表明,该方法具有优越的性能,在验证集上的六个情感维度上的平均皮尔逊相关系数为0.51。值得注意的是,我们的方法在测试集上达到了0.68,在第八届ABAW(野外情感行为分析)竞赛的EMI挑战赛道中获得亚军,为开放环境中的细粒度情感分析提供了一条新途径。
🔬 方法详解
问题定义:论文旨在解决情感模仿强度(EMI)估计问题,即准确预测个体在观察他人行为时所表现出的情感强度。现有方法的痛点在于无法充分利用跨模态信息(视觉、听觉、文本),对噪声和遮挡敏感,并且缺乏细粒度的时间动态建模能力,导致EMI估计精度不高。
核心思路:论文的核心思路是通过双阶段的跨模态对齐和动态融合,充分利用不同模态的信息,提高模型对噪声的鲁棒性,并捕捉细粒度的时间动态。第一阶段进行粗粒度的特征空间对齐,第二阶段进行细粒度的动态融合和质量引导的模态补偿。这样设计可以有效地解决现有方法的不足,提高EMI估计的准确性。
技术框架:整体框架分为两个阶段:1) 跨模态对齐阶段:利用CLIP架构,构建视觉-文本和音频-文本对比学习网络,通过模态解耦预训练,将不同模态的特征映射到统一的特征空间。2) 动态融合阶段:使用时间感知动态融合模块,该模块包含TCN和门控双向LSTM,分别用于捕获面部表情的宏观演变模式和声学特征的局部动态。此外,还引入了质量引导融合策略,根据模态的质量(例如,是否存在遮挡或噪声)动态地分配权重。
关键创新:论文的关键创新在于:1) 提出了一种双阶段跨模态对齐框架,有效地利用了不同模态的信息。2) 引入了时间感知动态融合模块,能够捕捉细粒度的时间动态。3) 提出了质量引导融合策略,提高了模型对噪声和遮挡的鲁棒性。与现有方法相比,该方法能够更准确地估计情感模仿强度。
关键设计:在跨模态对齐阶段,使用了CLIP架构,并进行了模态解耦预训练。在动态融合阶段,TCN用于捕捉面部表情的宏观演变模式,门控双向LSTM用于捕捉声学特征的局部动态。质量引导融合策略通过一个可微的权重分配机制,根据模态的质量动态地调整权重。损失函数包括对比学习损失和回归损失,用于优化模型的参数。
🖼️ 关键图片
📊 实验亮点
该方法在Hume-Vidmimic2数据集上取得了显著的性能提升,验证集上的平均皮尔逊相关系数为0.51,测试集上达到了0.68。在第八届ABAW竞赛的EMI挑战赛道中获得亚军,证明了该方法在野外环境下的情感模仿强度估计方面的有效性和竞争力。相较于其他参赛队伍,该方法在噪声和遮挡等复杂场景下表现出更强的鲁棒性。
🎯 应用场景
该研究成果可应用于人机交互、社交行为分析、心理健康评估等领域。例如,在人机交互中,可以利用情感模仿强度估计来提高机器人的情感理解能力,使其能够更好地与人类进行互动。在社交行为分析中,可以用于研究个体在社交场合中的情感表达和互动模式。在心理健康评估中,可以作为一种客观的评估指标,辅助医生进行诊断和治疗。
📄 摘要(原文)
Emotional Mimicry Intensity (EMI) estimation plays a pivotal role in understanding human social behavior and advancing human-computer interaction. The core challenges lie in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods--insufficient exploitation of cross-modal synergies, sensitivity to noise, and constrained fine-grained alignment capabilities--this paper proposes a dual-stage cross-modal alignment framework. Stage 1 develops vision-text and audio-text contrastive learning networks based on a CLIP architecture, achieving preliminary feature-space alignment through modality-decoupled pre-training. Stage 2 introduces a temporal-aware dynamic fusion module integrating Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to capture macro-evolution patterns of facial expressions and local dynamics of acoustic features, respectively. A novel quality-guided fusion strategy further enables differentiable weight allocation for modality compensation under occlusion and noise. Experiments on the Hume-Vidmimic2 dataset demonstrate superior performance with an average Pearson correlation coefficient of 0.51 across six emotion dimensions on the validate set. Remarkably, our method achieved 0.68 on the test set, securing runner-up in the EMI Challenge Track of the 8th ABAW (Affective Behavior Analysis in the Wild) Competition, offering a novel pathway for fine-grained emotion analysis in open environments.