Beyond Context to Cognitive Appraisal: Emotion Reasoning as a Theory of Mind Benchmark for Large Language Models

作者: Gerard Christopher Yeo, Kokil Jaidka

分类: cs.CL

发布日期: 2025-05-31

备注: 9 pages, 3 figures

💡 一句话要点

提出基于认知评估理论的心智理论基准，评估LLM的情感推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感推理 心智理论 认知评估理论 大型语言模型 情感识别

📋 核心要点

现有情感识别方法依赖于表面线索，缺乏对复杂上下文情感推理的有效评估。
论文提出基于认知评估理论的心智理论基准，用于评估LLM的情感推理能力。
实验表明LLM具备一定推理能力，但在情境评估与情绪关联方面表现不足，需心理学理论指导。

📝 摘要（中文）

情感识别任务的数据集通常包含可用于预测文本中表达的情绪的明显线索。然而，一个挑战是文本有时包含富含情感语义的隐蔽上下文线索，这需要更高阶的推理能力来推断情感状态，而不仅仅是传达的情绪。本研究超越了表面层面的感知特征，在一个心智理论（ToM）框架内，研究大型语言模型（LLM）如何使用上下文信息来推理他人的情感状态。基于认知评估理论，我们策划了一个专门的ToM评估数据集，以评估前向推理（从上下文到情绪）和后向推理（从情绪到推断的上下文）。结果表明，LLM在一定程度上可以进行推理，但它们在将情境结果和评估与特定情绪联系起来方面表现不佳。我们的工作强调了在情感推理的背景下，心理学理论在LLM的训练和评估中的必要性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在理解和推理复杂情感上下文方面的不足。现有情感识别方法主要依赖于文本的表面特征，缺乏对深层情感语义和情境信息的有效利用，尤其是在需要进行高阶推理的心智理论（Theory of Mind, ToM）任务中。现有方法难以准确评估LLM在理解他人情感状态，以及根据情境推断情感的能力。

核心思路：论文的核心思路是利用认知评估理论（Cognitive Appraisal Theory）作为LLM情感推理的理论基础，并构建一个专门的ToM评估数据集。认知评估理论认为，个体的情感体验是由其对情境的评估决定的。通过评估LLM在理解情境、评估情境以及将情境评估与特定情感联系起来的能力，可以更全面地评估其情感推理能力。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 基于认知评估理论，设计ToM评估数据集，包含前向推理（从上下文到情绪）和后向推理（从情绪到推断的上下文）两种任务。2) 使用该数据集评估LLM的情感推理能力，重点关注LLM在情境理解、情境评估和情感关联方面的表现。3) 分析LLM的推理结果，识别其在情感推理方面的优势和不足，并提出改进建议。

关键创新：论文的关键创新在于：1) 将认知评估理论引入LLM的情感推理研究，为评估LLM的情感理解能力提供了一个新的理论视角。2) 构建了一个专门的ToM评估数据集，该数据集更侧重于评估LLM的高阶情感推理能力，而非仅仅识别文本中的表面情绪。3) 揭示了LLM在情境评估和情感关联方面的不足，为未来的研究方向提供了指导。

关键设计：数据集包含两种推理任务：前向推理（给定情境，预测情绪）和后向推理（给定情绪，推断情境）。数据集的设计基于认知评估理论，每个样本都包含情境描述、情境评估（例如，事件的可控性、责任归属等）以及对应的情绪标签。评估指标包括准确率、精确率、召回率和F1值。没有特别说明损失函数和网络结构，因为论文重点在于数据集和评估方法，而非提出新的模型结构。

📊 实验亮点

实验结果表明，LLM在一定程度上具备情感推理能力，但在将情境结果和评估与特定情绪联系起来方面表现不佳。这表明LLM虽然可以识别文本中的情感线索，但缺乏对情感产生的深层心理机制的理解。该研究强调了心理学理论在LLM的情感推理训练和评估中的重要性。

🎯 应用场景

该研究成果可应用于情感对话系统、心理健康辅助工具、智能客服等领域。通过提升LLM的情感推理能力，可以使其更好地理解用户的情感需求，从而提供更个性化、更贴心的服务。此外，该研究也有助于推动人工智能在情感计算领域的进一步发展，为构建更具同理心和人情味的AI系统奠定基础。

📄 摘要（原文）

Datasets used for emotion recognition tasks typically contain overt cues that can be used in predicting the emotions expressed in a text. However, one challenge is that texts sometimes contain covert contextual cues that are rich in affective semantics, which warrant higher-order reasoning abilities to infer emotional states, not simply the emotions conveyed. This study advances beyond surface-level perceptual features to investigate how large language models (LLMs) reason about others' emotional states using contextual information, within a Theory-of-Mind (ToM) framework. Grounded in Cognitive Appraisal Theory, we curate a specialized ToM evaluation dataset1 to assess both forward reasoning - from context to emotion- and backward reasoning - from emotion to inferred context. We showed that LLMs can reason to a certain extent, although they are poor at associating situational outcomes and appraisals with specific emotions. Our work highlights the need for psychological theories in the training and evaluation of LLMs in the context of emotion reasoning.

Beyond Context to Cognitive Appraisal: Emotion Reasoning as a Theory of Mind Benchmark for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理