Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation
作者: Lingsi Zhu, Yuefeng Zou, Yunxiang Zhang, Naixiang Zheng, Guoyuan Wang, Jun Yu, Jiaen Liang, Wei Huang, Shengping Liu, Ximin Zheng
分类: cs.MM, cs.CV
发布日期: 2026-03-16
💡 一句话要点
提出TAEMI框架,利用文本锚定和跨模态注意力,提升噪声环境下情感模仿强度估计的鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感计算 多模态融合 情感模仿强度估计 文本锚定 交叉注意力
📋 核心要点
- 现有情感模仿强度估计方法难以有效建模异构模态间的复杂非线性时间动态,尤其是在物理信号受噪声干扰或缺失时。
- TAEMI框架以文本转录为锚点,通过文本锚定双重交叉注意力机制过滤冗余信息并对齐噪声物理流,提升模型鲁棒性。
- 在Hume-Vidmimic2数据集上的实验表明,TAEMI能有效捕捉细粒度情感变化,并在不完美条件下保持鲁棒性,显著优于现有方法。
📝 摘要(中文)
本文提出了一种名为TAEMI(Text-Anchored Emotional Mimicry Intensity estimation)的文本锚定情感模仿强度估计多模态框架,用于解决自然环境下情感计算中估计情感模仿强度(EMI)这一关键但具有挑战性的任务。该框架旨在有效建模高度异构模态之间复杂的非线性时间动态,尤其是在物理信号受损或缺失的情况下。TAEMI打破了传统的对称融合范式,利用文本转录作为中心锚点,因为文本转录固有地编码了稳定的、时间独立的语义先验。具体来说,引入了一种文本锚定双重交叉注意力机制,利用这些鲁棒的文本查询来主动过滤帧级别的冗余并对齐噪声物理流。此外,为了防止在不受约束的真实世界场景中由于不可避免的数据缺失而导致的灾难性性能下降,在训练期间集成了可学习的缺失模态令牌和模态Dropout策略。在Hume-Vidmimic2数据集上的大量实验表明,TAEMI有效地捕捉了细粒度的情感变化,并在不完美条件下保持了鲁棒的预测弹性。该框架在六个连续情感维度上实现了最先进的平均Pearson相关系数,显著优于现有的基线方法。
🔬 方法详解
问题定义:论文旨在解决在自然场景下,由于视觉和听觉信号易受噪声干扰或数据缺失,导致情感模仿强度(Emotional Mimicry Intensity, EMI)估计不准确的问题。现有方法通常采用对称融合策略,平等对待各个模态,但忽略了文本模态的稳定性和语义先验,容易受到噪声模态的影响。
核心思路:论文的核心思路是将文本模态作为锚点,利用其稳定的语义信息来指导其他模态的特征提取和融合。通过文本锚定双重交叉注意力机制,文本信息可以主动过滤掉噪声模态中的冗余信息,并对齐不同模态的特征表示,从而提高模型在噪声环境下的鲁棒性。
技术框架:TAEMI框架主要包含以下几个模块:1) 特征提取模块:分别提取文本、视觉和听觉模态的特征。2) 文本锚定双重交叉注意力模块:利用文本特征作为query,分别对视觉和听觉特征进行注意力加权,从而过滤冗余信息并对齐模态特征。3) 融合模块:将经过注意力加权的视觉和听觉特征与文本特征进行融合。4) 预测模块:根据融合后的特征预测情感模仿强度。此外,为了处理数据缺失问题,还引入了可学习的缺失模态令牌。
关键创新:论文的关键创新在于提出了文本锚定双重交叉注意力机制。与传统的对称融合方法不同,该机制利用文本模态的稳定性来指导其他模态的特征提取和融合,从而提高了模型在噪声环境下的鲁棒性。此外,引入可学习的缺失模态令牌和模态Dropout策略,进一步增强了模型在数据缺失情况下的适应性。
关键设计:在文本锚定双重交叉注意力机制中,使用了双重注意力结构,分别对视觉和听觉模态进行注意力加权。损失函数方面,使用了均方误差损失函数来衡量预测值与真实值之间的差距。在训练过程中,使用了模态Dropout策略,随机丢弃某些模态的特征,以增强模型的鲁棒性。可学习的缺失模态令牌被设计成一个可训练的向量,用于表示缺失模态的信息。
🖼️ 关键图片
📊 实验亮点
TAEMI框架在Hume-Vidmimic2数据集上取得了显著的性能提升,在六个连续情感维度上实现了最先进的平均Pearson相关系数。相较于现有基线方法,TAEMI在噪声环境和数据缺失情况下表现出更强的鲁棒性,证明了文本锚定双重交叉注意力机制的有效性。
🎯 应用场景
该研究成果可应用于情感计算、人机交互、心理健康评估等领域。例如,在人机交互中,可以利用该模型更准确地理解用户的情感状态,从而提供更自然、更个性化的交互体验。在心理健康评估中,可以分析患者在对话中的情感表达,辅助医生进行诊断和治疗。
📄 摘要(原文)
Estimating Emotional Mimicry Intensity (EMI) in naturalistic environments is a critical yet challenging task in affective computing. The primary difficulty lies in effectively modeling the complex, nonlinear temporal dynamics across highly heterogeneous modalities, especially when physical signals are corrupted or missing. To tackle this, we propose TAEMI (Text-Anchored Emotional Mimicry Intensity estimation), a novel multimodal framework designed for the 10th ABAW Competition. Motivated by the observation that continuous visual and acoustic signals are highly susceptible to transient environmental noise, we break the traditional symmetric fusion paradigm. Instead, we leverage textual transcript--which inherently encode a stable, time-independent semantic prior--as central anchors. Specifically, we introduce a Text-Anchored Dual Cross-Attention mechanism that utilizes these robust textual queries to actively filter out frame-level redundancies and align the noisy physical streams. Furthermore, to prevent catastrophic performance degradation caused by inevitably missing data in unconstrained real-world scenarios, we integrate Learnable Missing-Modality Tokens and a Modality Dropout strategy during training. Extensive experiments on the Hume-Vidmimic2 dataset demonstrate that TAEMI effectively captures fine-grained emotional variations and maintains robust predictive resilience under imperfect conditions. Our framework achieves a state-of-the-art mean Pearson correlation coefficient across six continuous emotional dimensions, significantly outperforming existing baseline methods.