Mixed Signals: Understanding Model Disagreement in Multimodal Empathy Detection

📄 arXiv: 2505.13979v3 📥 PDF

作者: Maya Srikanth, Run Chen, Julia Hirschberg

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-11-11)

备注: To appear in Findings of IJCNLP-AACL 2025


💡 一句话要点

研究多模态情感识别中模型预测分歧,揭示模态冲突下的潜在歧义。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 模型分歧 模态冲突 歧义性分析 门控融合

📋 核心要点

  1. 多模态情感识别模型在模态信息冲突时性能下降,现有研究缺乏对该问题的深入分析。
  2. 该论文通过分析单模态和多模态预测的分歧,揭示了模态冲突背后存在的潜在歧义性。
  3. 实验表明,模态分歧可作为诊断信号,用于识别困难样本并提升情感识别系统的鲁棒性。

📝 摘要(中文)

多模态模型在共情检测中发挥着关键作用,但当模态提供冲突线索时,其性能会受到影响。为了理解这些失败案例,我们研究了单模态和多模态预测出现分歧的情况。通过使用针对文本、音频和视频的微调模型,以及一个门控融合模型,我们发现这种分歧通常反映了潜在的歧义,这可以通过标注者的不确定性来证明。我们的分析表明,当其他模态不支持时,一个模态中的主导信号可能会误导融合。我们还观察到,像模型一样,人类也无法始终从多模态输入中受益。这些见解将分歧定位为一种有用的诊断信号,用于识别具有挑战性的示例并提高共情系统的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决多模态情感识别中,由于不同模态信息冲突导致模型性能下降的问题。现有方法通常简单地融合多模态信息,忽略了模态之间的潜在冲突和歧义,导致模型在某些情况下表现不佳。这种盲目融合的痛点在于,当一个模态提供错误或误导性信息时,会影响整体的预测准确性。

核心思路:论文的核心思路是分析单模态和多模态预测之间的分歧,将这种分歧视为一种诊断信号,用于识别模型难以处理的、具有歧义性的样本。通过研究这些分歧,可以更好地理解模态之间的相互作用,并改进多模态融合策略。论文认为,模型的分歧反映了数据本身存在的歧义性,而这种歧义性也可能导致人类判断的不一致。

技术框架:论文的技术框架主要包括以下几个部分:首先,针对文本、音频和视频三个模态,分别训练独立的单模态情感识别模型,这些模型都经过微调。然后,使用一个门控融合模型,将三个模态的信息进行融合,得到多模态情感识别结果。最后,分析单模态和多模态预测结果之间的差异,并结合人工标注数据,研究这些差异与数据歧义性之间的关系。

关键创新:论文的关键创新在于将模型预测的分歧作为一种诊断信号,用于识别多模态情感识别中的困难样本。与以往关注模型整体性能的方法不同,该论文深入分析了模型在哪些情况下会出错,以及出错的原因。这种分析方法有助于更好地理解多模态信息的复杂性,并为改进多模态融合策略提供新的思路。

关键设计:论文使用了微调的预训练模型作为单模态特征提取器,例如BERT用于文本,预训练的音频模型用于音频,以及预训练的视频模型用于视频。门控融合模型的设计允许模型根据不同模态的置信度动态地调整各个模态的权重。此外,论文还分析了标注者之间的一致性,以评估数据的歧义性。具体的损失函数和网络结构细节在论文中可能没有详细描述,需要参考相关文献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验发现,单模态和多模态预测的分歧与标注者之间的不确定性高度相关,表明模型的分歧反映了数据本身的歧义性。此外,研究还发现,在某些情况下,人类也无法始终从多模态输入中受益,这进一步验证了多模态情感识别的复杂性。

🎯 应用场景

该研究成果可应用于情感计算、人机交互、心理健康评估等领域。通过识别和处理多模态情感识别中的歧义性,可以提升情感识别系统的鲁棒性和准确性,从而改善用户体验,并为心理健康领域的应用提供更可靠的支持。

📄 摘要(原文)

Multimodal models play a key role in empathy detection, but their performance can suffer when modalities provide conflicting cues. To understand these failures, we examine cases where unimodal and multimodal predictions diverge. Using fine-tuned models for text, audio, and video, along with a gated fusion model, we find that such disagreements often reflect underlying ambiguity, as evidenced by annotator uncertainty. Our analysis shows that dominant signals in one modality can mislead fusion when unsupported by others. We also observe that humans, like models, do not consistently benefit from multimodal input. These insights position disagreement as a useful diagnostic signal for identifying challenging examples and improving empathy system robustness.