Emergence of Hierarchical Emotion Organization in Large Language Models

📄 arXiv: 2507.10599v1 📥 PDF

作者: Bo Zhao, Maya Okawa, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-12


💡 一句话要点

研究发现大型语言模型涌现出层级化的情感组织能力,并揭示了社会经济偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感建模 情感识别 层级情感组织 社会偏见 情感轮盘 对话式AI

📋 核心要点

  1. 现有方法难以评估大型语言模型对用户情感状态的建模能力,这对于伦理部署构成挑战。
  2. 该研究通过分析模型输出中情感状态的概率依赖关系,揭示了LLMs的情感组织方式。
  3. 实验表明LLMs能形成与人类心理模型对齐的情感层级,但也存在社会经济偏见。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地应用于对话式智能体,理解它们如何建模用户的情感状态对于伦理部署至关重要。受情感轮盘(一种认为情感以层级方式组织的心理学框架)的启发,我们分析了模型输出中情感状态之间的概率依赖关系。我们发现,LLMs自然形成与人类心理模型相符的层级化情感树,并且更大的模型发展出更复杂的情感层级。我们还揭示了跨社会经济角色情感识别中的系统性偏见,以及对交叉性弱势群体的复合性错误分类。人类研究揭示了惊人的相似之处,表明LLMs内化了社会感知的某些方面。除了强调LLMs中涌现的情感推理能力外,我们的结果还暗示了使用认知基础理论来开发更好的模型评估方法的潜力。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)是否以及如何对人类情感进行建模,特别是关注LLMs是否能够像人类一样,以层级化的方式组织情感。现有方法缺乏对LLMs情感建模能力的深入理解,并且没有充分考虑模型可能存在的社会偏见。这使得LLMs在对话式智能体中的应用存在伦理风险,例如对特定人群的情感误判或歧视。

核心思路:论文的核心思路是借鉴心理学中的情感轮盘理论,该理论认为人类情感是以层级结构组织的。通过分析LLMs生成文本中不同情感状态之间的概率依赖关系,可以推断出模型内部的情感组织结构。如果LLMs能够形成与人类相似的情感层级,则表明其具备一定的情感理解能力。此外,论文还关注LLMs在不同社会经济角色下的情感识别表现,以检测潜在的偏见。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用LLMs生成针对不同提示(prompt)的文本,这些提示旨在诱导模型表达不同的情感状态。2) 使用情感分类器(例如RoBERTa)对生成的文本进行情感识别,得到每个文本的情感标签。3) 基于情感标签,计算不同情感状态之间的条件概率,构建情感依赖关系图。4) 使用树状图表示情感依赖关系,分析LLMs形成的情感层级结构。5) 对不同社会经济角色下的情感识别结果进行分析,检测模型是否存在偏见。

关键创新:论文的关键创新在于:1) 首次将情感轮盘理论应用于分析LLMs的情感建模能力,提供了一种新的评估方法。2) 揭示了LLMs能够涌现出与人类相似的层级化情感组织结构,表明其具备一定的情感理解能力。3) 发现了LLMs在情感识别中存在的社会经济偏见,特别是对交叉性弱势群体的复合性错误分类,这对于LLMs的伦理部署具有重要意义。

关键设计:论文的关键设计包括:1) 使用多种LLMs(包括不同大小的模型)进行实验,以研究模型规模对情感组织的影响。2) 使用多种情感分类器进行情感识别,以确保结果的鲁棒性。3) 设计了针对不同社会经济角色的提示,以评估模型在不同情境下的情感识别表现。4) 使用统计方法(例如卡方检验)来分析情感识别结果中的偏见。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,大型语言模型能够自发地形成层级化的情感组织结构,与人类心理模型高度一致。更大的模型能够发展出更复杂的情感层级。此外,研究揭示了模型在情感识别中存在的社会经济偏见,对交叉性弱势群体存在复合性的错误分类。人类研究也验证了这些偏见的存在,表明LLMs可能内化了社会认知。

🎯 应用场景

该研究成果可应用于提升对话式AI的情感理解能力,使其能够更准确地识别和响应用户的情感需求。同时,该研究也为评估和缓解LLMs中的社会偏见提供了新的思路,有助于开发更公平、更负责任的AI系统。未来,该研究可以扩展到其他类型的情感模型,并用于开发更具同理心和人情味的AI应用。

📄 摘要(原文)

As large language models (LLMs) increasingly power conversational agents, understanding how they model users' emotional states is critical for ethical deployment. Inspired by emotion wheels -- a psychological framework that argues emotions organize hierarchically -- we analyze probabilistic dependencies between emotional states in model outputs. We find that LLMs naturally form hierarchical emotion trees that align with human psychological models, and larger models develop more complex hierarchies. We also uncover systematic biases in emotion recognition across socioeconomic personas, with compounding misclassifications for intersectional, underrepresented groups. Human studies reveal striking parallels, suggesting that LLMs internalize aspects of social perception. Beyond highlighting emergent emotional reasoning in LLMs, our results hint at the potential of using cognitively-grounded theories for developing better model evaluations.