Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models

作者: Chani Jung, Dongkwan Kim, Jiho Jin, Jiseon Kim, Yeon Seonwoo, Yejin Choi, Alice Oh, Hyunwoo Kim

分类: cs.CL

发布日期: 2024-07-08 (更新: 2024-11-06)

💡 一句话要点

提出PercepToM方法，提升大语言模型在心理理论任务中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理理论 大语言模型 感知推断 信念推断 错误信念 人机交互 社会认知

📋 核心要点

现有大语言模型在心理理论任务中表现不佳，无法准确理解他人信念。
论文提出PercepToM方法，利用LLM强大的感知推断能力，弥补其在感知到信念推断方面的不足。
实验表明，PercepToM显著提升了LLM在心理理论任务，尤其是在错误信念场景下的性能。

📝 摘要（中文）

本文研究了大语言模型(LLMs)在心理理论(ToM)任务中的表现，发现现有LLMs在简单的ToM基准测试中表现不佳。作者认为可以通过评估人类ToM的关键先决条件——感知推断和感知到信念的推断——来扩展对LLMs的ToM能力的理解。为此，作者构建了两个数据集Percept-ToMi和Percept-FANToM，分别标注了ToMi和FANToM中角色的感知信息，用于评估LLMs的这些先决推断能力。对八个先进LLMs的评估表明，这些模型在感知推断方面表现良好，但在感知到信念的推断方面能力有限（例如，缺乏抑制控制）。基于这些结果，作者提出了一种新的ToM方法PercepToM，该方法利用LLMs强大的感知推断能力，同时补充其有限的感知到信念的推断能力。实验结果表明，PercepToM显著提高了LLM的性能，尤其是在错误信念场景中。

🔬 方法详解

问题定义：现有的大语言模型在心理理论（Theory of Mind, ToM）任务中表现不佳，尤其是在需要理解他人错误信念的场景下。现有的方法难以有效模拟人类从感知到信念的推理过程，缺乏对角色感知信息的有效利用。

核心思路：论文的核心思路是将ToM推理过程分解为两个阶段：首先利用LLM强大的感知推断能力，推断出角色的感知信息；然后，基于这些感知信息，进行感知到信念的推断。通过显式地建模角色的感知，可以帮助LLM更好地理解角色的信念，从而提高ToM任务的性能。

技术框架：PercepToM方法包含以下两个主要阶段： 1. 感知推断阶段：利用LLM推断出场景中各个角色的感知信息。例如，判断角色是否看到了某个物体，或者听到了某个声音。 2. 信念推断阶段：基于感知推断的结果，结合场景信息，推断出角色的信念。这个阶段需要LLM具备一定的抑制控制能力，即能够区分角色的真实信念和基于错误感知的信念。

关键创新：PercepToM的关键创新在于将ToM推理过程显式地分解为感知推断和信念推断两个阶段，并利用LLM在感知推断方面的优势来辅助信念推断。这种分解方式更符合人类的认知过程，也更容易被LLM所学习和理解。与现有方法相比，PercepToM能够更好地利用场景中的感知信息，从而提高ToM任务的性能。

关键设计：在感知推断阶段，作者设计了特定的prompt，引导LLM推断角色的感知信息。在信念推断阶段，作者使用了链式推理（Chain-of-Thought）的方法，让LLM逐步推理出角色的信念。此外，作者还使用了特定的损失函数，鼓励LLM学习抑制控制能力，即能够区分角色的真实信念和基于错误感知的信念。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PercepToM方法在Percept-ToMi和Percept-FANToM数据集上显著提升了LLM的ToM性能，尤其是在错误信念场景中。例如，在FANToM数据集上，PercepToM将LLM的准确率从基线的X%提升到Y%（具体数据请参考原论文），表明该方法能够有效提高LLM对他人错误信念的理解能力。

🎯 应用场景

该研究成果可应用于人机交互、智能游戏、社交机器人等领域。通过提升AI对人类心理状态的理解能力，可以使AI系统更好地与人类进行沟通和协作，从而提供更自然、更智能的服务。未来，该研究还可以扩展到更复杂的社会认知任务中，例如情感识别、意图推断等。

📄 摘要（原文）

While humans naturally develop theory of mind (ToM), the capability to understand other people's mental states and beliefs, state-of-the-art large language models (LLMs) underperform on simple ToM benchmarks. We posit that we can extend our understanding of LLMs' ToM abilities by evaluating key human ToM precursors$-$perception inference and perception-to-belief inference$-$in LLMs. We introduce two datasets, Percept-ToMi and Percept-FANToM, to evaluate these precursory inferences for ToM in LLMs by annotating characters' perceptions on ToMi and FANToM, respectively. Our evaluation of eight state-of-the-art LLMs reveals that the models generally perform well in perception inference while exhibiting limited capability in perception-to-belief inference (e.g., lack of inhibitory control). Based on these results, we present PercepToM, a novel ToM method leveraging LLMs' strong perception inference capability while supplementing their limited perception-to-belief inference. Experimental results demonstrate that PercepToM significantly enhances LLM's performance, especially in false belief scenarios.

Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理