GPT-4 Emulates Average-Human Emotional Cognition from a Third-Person Perspective

📄 arXiv: 2408.13718v1 📥 PDF

作者: Ala N. Tak, Jonathan Gratch

分类: cs.AI, cs.CL, cs.HC

发布日期: 2024-08-11

备注: submitted to 12th International Conference on Affective Computing & Intelligent Interaction, Glasgow, UK, September 15-18, 2024


💡 一句话要点

GPT-4能从第三人称视角模拟平均人类的情感认知

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感认知 大型语言模型 第三人称视角 情感推理 人机交互

📋 核心要点

  1. 现有LLM研究缺乏对自我情感归因与感知他人情感之间差异的直接评估。
  2. 论文核心思想是考察LLM在理解他人情感方面的能力,并与人类的判断进行对比。
  3. 实验表明,GPT-4在理解他人情感方面与人类的判断更吻合,尤其是在刻板场景中。

📝 摘要(中文)

本文扩展了对大型语言模型(LLMs)情感推理能力的最新研究。目前关于LLMs的研究尚未直接评估LLMs在预测自我情感归因与感知他人情感之间的区别。我们首先考察了精心设计的情感激发刺激,这些刺激最初旨在发现代表他人细粒度推断情感归因的脑神经活动模式。我们表明,GPT-4在推理这些刺激方面尤其准确。这表明,在刻板场景中,LLMs在他人情感归因方面与人类的观点非常一致,但在特殊情境中,自我情感归因方面则不然。为了进一步探索这一点,我们的第二项研究利用了一个包含作者和第三人称视角的注释的数据集。我们发现,GPT-4的解释与人类对他人情感的判断比与自我评估更吻合。值得注意的是,传统的情感计算模型主要依赖于自我报告的真实情况作为黄金标准。然而,一个普通观察者的立场,LLMs似乎已经采用了这种立场,可能更适用于许多下游应用,至少在缺乏个人信息和充分的安全考虑的情况下。

🔬 方法详解

问题定义:现有情感计算模型主要依赖自我报告作为情感判断的黄金标准,忽略了第三人称视角的重要性。论文旨在研究大型语言模型(LLMs)是否能够模拟人类从第三人称视角进行情感认知,并评估其与人类判断的一致性。现有方法未能区分LLMs在自我情感归因和感知他人情感方面的差异,可能导致模型在实际应用中产生偏差。

核心思路:论文的核心思路是利用精心设计的情感激发刺激和包含第三人称视角注释的数据集,评估GPT-4在理解他人情感方面的能力。通过将GPT-4的判断与人类的自我评估和第三人称评估进行对比,揭示LLMs是否能够更好地模拟人类的平均情感认知。这种设计旨在验证LLMs是否能够超越自我中心视角,更客观地理解他人的情感状态。

技术框架:论文主要包含两个研究部分。第一部分使用情感激发刺激,评估GPT-4在推理他人情感方面的准确性。第二部分使用包含作者和第三人称视角注释的数据集,对比GPT-4的解释与人类的自我评估和第三人称评估。整体流程包括数据收集、模型推理、结果对比和分析。

关键创新:论文的关键创新在于直接评估了LLMs从第三人称视角进行情感认知的能力,并发现GPT-4在理解他人情感方面与人类的判断更吻合。这一发现挑战了传统情感计算模型依赖自我报告的黄金标准,并提出了LLMs可能更适合模拟平均人类情感认知的观点。

关键设计:论文的关键设计包括:1) 使用精心设计的情感激发刺激,以引发细粒度的情感反应;2) 利用包含第三人称视角注释的数据集,以进行更全面的评估;3) 对比GPT-4的判断与人类的自我评估和第三人称评估,以揭示LLMs的情感认知特点。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于GPT-4的内部实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4在推理他人情感方面表现出惊人的准确性,尤其是在刻板场景中。GPT-4的解释与人类对他人情感的判断比与自我评估更吻合。这一发现表明,LLMs可能更适合模拟平均人类情感认知,为情感计算领域的研究提供了新的视角。

🎯 应用场景

该研究成果可应用于情感计算、人机交互、心理健康评估等领域。通过利用LLMs模拟人类的平均情感认知,可以开发更自然、更具同理心的人工智能系统。例如,在心理咨询领域,可以辅助咨询师进行情感分析和诊断;在人机交互领域,可以提升机器人的情感理解能力,使其能够更好地与人类进行沟通和协作。

📄 摘要(原文)

This paper extends recent investigations on the emotional reasoning abilities of Large Language Models (LLMs). Current research on LLMs has not directly evaluated the distinction between how LLMs predict the self-attribution of emotions and the perception of others' emotions. We first look at carefully crafted emotion-evoking stimuli, originally designed to find patterns of brain neural activity representing fine-grained inferred emotional attributions of others. We show that GPT-4 is especially accurate in reasoning about such stimuli. This suggests LLMs agree with humans' attributions of others' emotions in stereotypical scenarios remarkably more than self-attributions of emotions in idiosyncratic situations. To further explore this, our second study utilizes a dataset containing annotations from both the author and a third-person perspective. We find that GPT-4's interpretations align more closely with human judgments about the emotions of others than with self-assessments. Notably, conventional computational models of emotion primarily rely on self-reported ground truth as the gold standard. However, an average observer's standpoint, which LLMs appear to have adopted, might be more relevant for many downstream applications, at least in the absence of individual information and adequate safety considerations.