Human-like Affective Cognition in Foundation Models

📄 arXiv: 2409.11733v2 📥 PDF

作者: Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman

分类: cs.CL

发布日期: 2024-09-18 (更新: 2024-09-19)


💡 一句话要点

提出情感认知评估框架,验证大型模型在理解人类情感方面的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感认知 大型语言模型 评估框架 心理学理论 思维链推理

📋 核心要点

  1. 现有AI在情感理解方面能力未知,缺乏系统评估框架。
  2. 构建包含评估、情感、表达和结果关系的场景,测试模型的情感认知能力。
  3. 实验表明,大型模型在情感理解上与人类直觉高度一致,甚至在某些方面超越人类。

📝 摘要(中文)

理解情感是人类互动和体验的基础。人类可以轻松地从情境或面部表情推断情感,从情感推断情境,并进行各种其他情感认知。现代人工智能在这些推断方面的能力如何?本文提出了一个评估框架,用于测试基础模型中的情感认知。从心理学理论出发,生成了1280个不同的场景,探索了评估、情感、表达和结果之间的关系。评估了基础模型(GPT-4、Claude-3、Gemini-1.5-Pro)和人类(N = 567)在精心选择的条件下的能力。结果表明,基础模型倾向于与人类直觉相符,达到或超过参与者之间的协议。在某些情况下,模型是“超人”——它们比普通人更好地预测模态人类判断。所有模型都受益于思维链推理。这表明基础模型已经获得了类似人类的情感理解及其对信念和行为的影响。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在情感认知方面的能力,即模型是否能够像人类一样理解和推理情感。现有方法缺乏一个全面的、基于心理学理论的评估框架,难以系统地衡量模型的情感理解水平。因此,如何设计一个能够有效测试模型情感认知能力的评估体系是本研究要解决的核心问题。

核心思路:论文的核心思路是构建一个基于心理学理论的情感认知评估框架,通过生成包含评估、情感、表达和结果之间关系的场景,来测试模型在不同条件下的情感推理能力。这种方法借鉴了人类情感认知的心理学模型,旨在更全面、更深入地评估模型的情感理解水平。

技术框架:该研究的技术框架主要包含以下几个阶段:1) 基于心理学理论生成1280个不同的情感场景,这些场景涵盖了评估、情感、表达和结果之间的各种关系。2) 选择GPT-4、Claude-3、Gemini-1.5-Pro等主流大型语言模型作为评估对象。3) 设计不同的实验条件,例如从情境推断情感、从情感推断情境等。4) 使用思维链(Chain-of-Thought)提示方法来提升模型的推理能力。5) 将模型的结果与人类的判断进行对比,评估模型的情感认知能力。

关键创新:该研究的关键创新在于提出了一个基于心理学理论的情感认知评估框架。该框架不仅能够全面地评估模型的情感理解能力,而且能够深入地分析模型在不同情感场景下的推理表现。此外,研究还发现,大型语言模型在情感理解方面与人类直觉高度一致,甚至在某些方面超越人类,这为人工智能在情感计算领域的发展提供了新的思路。

关键设计:在场景生成方面,研究人员基于心理学理论,精心设计了1280个不同的情感场景,这些场景涵盖了评估、情感、表达和结果之间的各种关系。在模型评估方面,研究人员使用了思维链提示方法来提升模型的推理能力,并设计了不同的实验条件来测试模型在不同情感场景下的推理表现。此外,研究人员还收集了567名人类参与者的判断数据,用于与模型的结果进行对比,从而更准确地评估模型的情感认知能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在情感理解方面与人类直觉高度一致,达到或超过参与者之间的协议。在某些情况下,模型甚至表现出“超人”能力,即它们比普通人更好地预测模态人类判断。所有模型都受益于思维链推理,这表明思维链方法能够有效提升模型的情感推理能力。这些发现为人工智能在情感计算领域的发展提供了有力的支持。

🎯 应用场景

该研究成果可应用于开发更具同理心和情感智能的人工智能系统,例如情感聊天机器人、心理健康辅助工具、个性化教育系统等。通过提升AI的情感理解能力,可以改善人机交互体验,并为解决社会问题提供新的技术手段。未来的研究可以进一步探索如何将情感认知融入到AI系统的设计中,使其能够更好地理解和响应人类的情感需求。

📄 摘要(原文)

Understanding emotions is fundamental to human interaction and experience. Humans easily infer emotions from situations or facial expressions, situations from emotions, and do a variety of other affective cognition. How adept is modern AI at these inferences? We introduce an evaluation framework for testing affective cognition in foundation models. Starting from psychological theory, we generate 1,280 diverse scenarios exploring relationships between appraisals, emotions, expressions, and outcomes. We evaluate the abilities of foundation models (GPT-4, Claude-3, Gemini-1.5-Pro) and humans (N = 567) across carefully selected conditions. Our results show foundation models tend to agree with human intuitions, matching or exceeding interparticipant agreement. In some conditions, models are ``superhuman'' -- they better predict modal human judgements than the average human. All models benefit from chain-of-thought reasoning. This suggests foundation models have acquired a human-like understanding of emotions and their influence on beliefs and behavior.