Are Large Language Models More Empathetic than Humans?

📄 arXiv: 2406.05063v1 📥 PDF

作者: Anuradha Welivita, Pearl Pu

分类: cs.CL

发布日期: 2024-06-07

备注: 9 pages, 3 figures. arXiv admin note: text overlap with arXiv:2403.05572


💡 一句话要点

评估大型语言模型同理心:LLM在同理心回应方面超越人类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同理心 情感识别 用户研究 自然语言处理

📋 核心要点

  1. 现有方法难以准确评估大型语言模型(LLM)在同理心回应方面的能力,缺乏系统性的比较研究。
  2. 该研究通过大规模用户调查,对比了GPT-4、LLaMA-2等多个LLM与人类在同理心回应上的表现。
  3. 实验结果表明,LLM在同理心回应方面显著优于人类,GPT-4表现最佳,且不同LLM擅长回应不同类型的情绪。

📝 摘要(中文)

随着大型语言模型(LLMs)的兴起,研究它们是否能在情感识别和同理心回应等领域超越人类已成为研究的焦点。本文提出了一项全面的研究,比较了四个最先进的LLM:GPT-4、LLaMA-2-70B-Chat、Gemini-1.0-Pro和Mixtral-8x7B-Instruct与人类基线在同理心回应能力方面的表现。我们进行了一项包含1000名参与者的受试者间用户研究,评估了人类和这四个LLM对2000个情感对话提示的回复的同理心质量,这些提示经过精心挑选,涵盖了32种不同的积极和消极情绪。研究结果表明,LLM的同理心回应能力在统计学上显著优于人类。GPT-4表现出最强的同理心,其被评为“好”的回复比人类基准提高了约31%。紧随其后的是LLaMA-2、Mixtral-8x7B和Gemini-Pro,它们在“好”评级中分别提高了约24%、21%和10%。我们进一步细粒度地分析了回复评级,发现一些LLM在回应特定情绪方面明显优于其他LLM。所提出的评估框架为评估新LLM的同理心提供了一种可扩展且适应性强的方法,避免了未来研究中重复这项研究结果的需要。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大型语言模型(LLM)的同理心能力,并将其与人类的同理心水平进行比较的问题。现有方法缺乏一个系统性的、细粒度的评估框架,难以全面了解LLM在不同情感场景下的同理心表现。此外,现有研究较少关注不同LLM在处理特定情绪时的差异性。

核心思路:论文的核心思路是通过大规模的用户研究,收集人类对LLM生成的回应的评价,从而量化LLM的同理心水平。通过精心设计的包含多种情感的对话提示,以及细粒度的评价指标,可以更准确地评估LLM在不同情感场景下的表现,并与人类基线进行对比。

技术框架:该研究采用了一个包含以下步骤的评估框架: 1. 情感对话提示选择:精心挑选2000个情感对话提示,覆盖32种不同的积极和消极情绪。 2. LLM回应生成:使用GPT-4、LLaMA-2-70B-Chat、Gemini-1.0-Pro和Mixtral-8x7B-Instruct等LLM对这些提示生成回应。 3. 用户研究:招募1000名参与者,对人类和LLM生成的回应进行同理心质量评估。 4. 数据分析:对收集到的数据进行统计分析,比较不同LLM和人类在同理心方面的表现。

关键创新:该研究的关键创新在于: 1. 大规模用户研究:通过大规模的用户研究,获得了更可靠的评估结果。 2. 细粒度情感分类:使用包含32种不同情感的对话提示,可以更细致地评估LLM在不同情感场景下的表现。 3. 多LLM对比:对比了多个最先进的LLM,揭示了它们在同理心方面的差异。

关键设计:该研究的关键设计包括: 1. 受试者间设计:每个参与者只评估人类或一个LLM生成的回应,避免了偏见。 2. 评价指标:使用“好”、“一般”、“差”等评价指标,量化回应的同理心质量。 3. 统计分析方法:采用统计显著性检验,确保结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在同理心回应方面显著优于人类。GPT-4的表现最为突出,其被评为“好”的回复比人类基准提高了约31%。LLaMA-2、Mixtral-8x7B和Gemini-Pro的“好”评级也分别提高了约24%、21%和10%。此外,研究还发现不同LLM在回应特定情绪方面存在差异,例如,某些LLM可能更擅长处理悲伤或愤怒等负面情绪。

🎯 应用场景

该研究成果可应用于开发更具同理心的人工智能助手、心理健康支持系统和客户服务机器人。通过理解和回应用户的情感,这些系统可以提供更个性化和有效的帮助,改善用户体验,并在情感支持领域发挥重要作用。未来的研究可以进一步探索如何将LLM的同理心能力应用于更复杂的社会互动场景。

📄 摘要(原文)

With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper presents a comprehensive study exploring the empathetic responding capabilities of four state-of-the-art LLMs: GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, and Mixtral-8x7B-Instruct in comparison to a human baseline. We engaged 1,000 participants in a between-subjects user study, assessing the empathetic quality of responses generated by humans and the four LLMs to 2,000 emotional dialogue prompts meticulously selected to cover a broad spectrum of 32 distinct positive and negative emotions. Our findings reveal a statistically significant superiority of the empathetic responding capability of LLMs over humans. GPT-4 emerged as the most empathetic, marking approximately 31% increase in responses rated as "Good" compared to the human benchmark. It was followed by LLaMA-2, Mixtral-8x7B, and Gemini-Pro, which showed increases of approximately 24%, 21%, and 10% in "Good" ratings, respectively. We further analyzed the response ratings at a finer granularity and discovered that some LLMs are significantly better at responding to specific emotions compared to others. The suggested evaluation framework offers a scalable and adaptable approach for assessing the empathy of new LLMs, avoiding the need to replicate this study's findings in future research.