E-THER: A Multimodal Dataset for Empathic AI -- Towards Emotional Mismatch Awareness

📄 arXiv: 2509.02100v2 📥 PDF

作者: Sharjeel Tahir, Judith Johnson, Jumana Abu-Khalaf, Syed Afaq Ali Shah

分类: cs.HC, cs.CL

发布日期: 2025-09-02 (更新: 2025-09-08)

备注: 15 pages, 4 figures. Preprint


💡 一句话要点

提出E-THER多模态数据集,用于提升AI在情感不匹配感知方面的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 情感不匹配 共情AI 视觉语言模型 人本主义心理学

📋 核心要点

  1. 现有共情AI系统缺乏识别言语与情感状态不一致性的能力,阻碍了其发展真正的共情能力。
  2. E-THER数据集通过提供言语-视觉不一致的多维标注,使AI系统能够学习识别和理解情感不匹配。
  3. 实验表明,使用E-THER训练的模型在共情和治疗对话质量方面优于通用模型,更符合治疗原则。

📝 摘要(中文)

当前共情AI系统的一个普遍缺陷是无法识别口头表达可能无法完全反映潜在情绪状态的情况。这是因为现有数据集侧重于表面层面的情绪识别,而没有解决对共情理解有用的复杂言语-视觉不一致(不匹配)模式。本文提出了E-THER,这是第一个以人为中心的治疗为基础的多模态数据集,具有用于言语-视觉不一致检测的多维注释,从而能够训练AI系统,使其发展真正的而非表演性的共情能力。数据集中包含的注释来自人本主义方法,即识别客户-咨询师互动中的言语-视觉情绪不一致,从而形成训练和评估AI执行共情任务的框架。额外的参与度分数提供了用于研究应用的 behavioral 注释。在使用基于共情和治疗原则的评估指标时,在最先进的视觉语言模型(VLM)如IDEFICS和VideoLLAVA中观察到共情和治疗对话质量的显著提高。实证研究结果表明,我们经过不一致训练的模型在关键特征方面优于通用模型,例如维持治疗参与度,最大限度地减少人为或夸张的语言模式,以及保持对PCT理论框架的忠诚度。

🔬 方法详解

问题定义:现有共情AI系统在理解人类情感的复杂性方面存在局限性,尤其是在识别言语表达与真实情感状态不一致的情况时。现有数据集主要关注表面情绪识别,忽略了言语和视觉信息之间的细微差别,导致AI系统只能进行表演性的共情,缺乏真正的理解能力。

核心思路:本文的核心思路是构建一个包含多模态数据(言语和视觉)并带有细粒度情感不一致标注的数据集,即E-THER。通过训练AI模型识别和理解这些不一致模式,使其能够更准确地推断人类的真实情感状态,从而提升其共情能力。这种方法借鉴了以人为中心的治疗(PCT)原则,强调理解个体的主观体验。

技术框架:E-THER数据集的构建基于客户-咨询师的互动场景,包含言语和视觉信息。数据集的关键在于多维度的情感不一致标注,这些标注基于人本主义方法,识别客户和咨询师互动中的言语-视觉情绪不一致。此外,数据集还包含参与度分数,用于评估互动质量。研究人员使用该数据集训练和评估视觉语言模型(VLMs),如IDEFICS和VideoLLAVA。

关键创新:E-THER数据集是首个专门针对言语-视觉情感不一致检测的多模态数据集。其创新之处在于:1) 关注情感不一致性,而非简单的表面情绪识别;2) 基于以人为中心的治疗理论,提供更深入的情感理解框架;3) 提供多维度的情感标注,为AI模型提供更丰富的学习信号。

关键设计:数据集的标注过程由专业的心理治疗师进行,确保标注的准确性和可靠性。参与度分数的计算方法未知。模型训练过程中,使用了基于共情和治疗原则的评估指标,以评估模型在共情和治疗对话质量方面的表现。具体的损失函数和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用E-THER数据集训练的视觉语言模型(VLMs)在共情和治疗对话质量方面取得了显著提升。具体而言,这些模型在维持治疗参与度、减少人为或夸张的语言模式以及保持对PCT理论框架的忠诚度方面优于通用模型。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于心理健康领域,例如开发辅助心理咨询的AI工具,帮助咨询师更好地理解患者的情感状态。此外,还可应用于人机交互领域,提升AI在对话系统中的共情能力,使其能够更自然、更有效地与人类进行交流。未来,该技术有望应用于教育、医疗等多个领域,提升AI在情感理解方面的能力。

📄 摘要(原文)

A prevalent shortfall among current empathic AI systems is their inability to recognize when verbal expressions may not fully reflect underlying emotional states. This is because the existing datasets, used for the training of these systems, focus on surface-level emotion recognition without addressing the complex verbal-visual incongruence (mismatch) patterns useful for empathic understanding. In this paper, we present E-THER, the first Person-Centered Therapy-grounded multimodal dataset with multidimensional annotations for verbal-visual incongruence detection, enabling training of AI systems that develop genuine rather than performative empathic capabilities. The annotations included in the dataset are drawn from humanistic approach, i.e., identifying verbal-visual emotional misalignment in client-counsellor interactions - forming a framework for training and evaluating AI on empathy tasks. Additional engagement scores provide behavioral annotations for research applications. Notable gains in empathic and therapeutic conversational qualities are observed in state-of-the-art vision-language models (VLMs), such as IDEFICS and VideoLLAVA, using evaluation metrics grounded in empathic and therapeutic principles. Empirical findings indicate that our incongruence-trained models outperform general-purpose models in critical traits, such as sustaining therapeutic engagement, minimizing artificial or exaggerated linguistic patterns, and maintaining fidelity to PCT theoretical framework.