Heartificial Intelligence: Exploring Empathy in Language Models

📄 arXiv: 2508.08271v1 📥 PDF

作者: Victoria Williams, Benjamin Rosman

分类: cs.CL, cs.HC

发布日期: 2025-07-30

备注: 21 pages, 5 tables


💡 一句话要点

评估语言模型共情能力:大型模型认知共情超越人类,但情感共情仍有差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 共情能力 认知共情 情感共情 心理学评估 虚拟助手 人机交互

📋 核心要点

  1. 现有语言模型在虚拟陪伴应用中,缺乏对认知和情感共情的全面评估,限制了其有效性。
  2. 本研究采用心理学标准测试,评估了大小型语言模型在认知和情感共情方面的表现。
  3. 实验结果表明,大型语言模型在认知共情上超越人类,但在情感共情上仍有不足。

📝 摘要(中文)

大型语言模型(LLM)在专业和个人领域被广泛使用。随着模型的发展,它们越来越多地扮演虚拟助手和陪伴的角色。有效的人际沟通通常涉及认知共情(理解他人的想法和情感)和情感共情(在情感上分享他人的感受)。本研究使用标准化的心理测试,调查了小型(SLM)和大型语言模型(LLM)的认知和情感共情能力。结果表明,LLM在认知共情任务上始终优于人类,甚至包括心理学专业的学生。然而,尽管LLM在认知方面表现出色,但小型和大型语言模型的情感共情能力都显著低于人类参与者。这些发现突出了语言模型在模拟认知共情方面的快速进展,表明其在提供有效的虚拟陪伴和个性化情感支持方面具有强大的潜力。此外,它们的高认知共情和较低情感共情能力使其能够提供客观和一致的情感支持,而不会面临情感疲劳或偏见的风险。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在认知共情和情感共情方面的能力。现有方法缺乏对LLM共情能力的系统性评估,尤其是在情感共情方面,这限制了LLM在虚拟陪伴和情感支持等领域的应用。

核心思路:论文的核心思路是使用心理学中标准化的共情测试来评估LLM的共情能力。通过对比LLM与人类(包括心理学学生)在这些测试上的表现,来量化LLM在认知和情感共情方面的优势和不足。这种方法借鉴了心理学研究的成熟体系,为评估LLM的共情能力提供了客观依据。

技术框架:该研究没有提出新的模型架构或训练方法,而是侧重于评估现有模型。整体流程包括:1) 选择不同规模的语言模型(SLM和LLM);2) 使用标准化的心理测试(具体测试类型未知)评估模型的认知和情感共情能力;3) 将模型的结果与人类参与者(包括心理学学生)的结果进行对比分析。

关键创新:该研究的关键创新在于将心理学领域的共情评估方法应用于语言模型,从而为评估LLM的情感智能提供了一种新的视角。以往的研究主要关注LLM在语言生成和理解方面的能力,而忽略了其在情感理解和共情方面的表现。

关键设计:论文的关键设计在于选择合适的心理学测试来评估认知和情感共情。具体的测试类型未知,但需要确保这些测试能够有效区分认知共情和情感共情,并且能够量化模型的表现。此外,对比实验中人类参与者的选择也很重要,需要选择具有代表性的样本,以便更好地评估LLM的共情能力。

📊 实验亮点

实验结果显示,大型语言模型在认知共情任务上的表现超越了人类,甚至优于心理学专业的学生。然而,无论是小型还是大型语言模型,在情感共情方面的表现都显著低于人类。这一发现揭示了当前语言模型在模拟人类情感方面的局限性,并为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于开发更具同理心的虚拟助手和情感支持系统。通过了解语言模型在认知和情感共情方面的优势和不足,可以针对性地改进模型,使其能够更好地理解和回应人类的情感需求。这在心理健康支持、教育和人机交互等领域具有重要应用价值,并可能促进更自然和有效的人机协作。

📄 摘要(原文)

Large language models have become increasingly common, used by millions of people worldwide in both professional and personal contexts. As these models continue to advance, they are frequently serving as virtual assistants and companions. In human interactions, effective communication typically involves two types of empathy: cognitive empathy (understanding others' thoughts and emotions) and affective empathy (emotionally sharing others' feelings). In this study, we investigated both cognitive and affective empathy across several small (SLMs) and large (LLMs) language models using standardized psychological tests. Our results revealed that LLMs consistently outperformed humans - including psychology students - on cognitive empathy tasks. However, despite their cognitive strengths, both small and large language models showed significantly lower affective empathy compared to human participants. These findings highlight rapid advancements in language models' ability to simulate cognitive empathy, suggesting strong potential for providing effective virtual companionship and personalized emotional support. Additionally, their high cognitive yet lower affective empathy allows objective and consistent emotional support without running the risk of emotional fatigue or bias.