GPT-4o Lacks Core Features of Theory of Mind

📄 arXiv: 2602.12150v1 📥 PDF

作者: John Muchovej, Amanda Royka, Shane Lee, Julian Jara-Ettinger

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-02-12

备注: Submitted to CogSci 2025; see more at https://jmuchovej.com/projects/llm-tom. Note: "abstractness" is the second feature we test for, but due to arXiv's abstract requirements, the text has been altered


💡 一句话要点

GPT-4o缺乏核心的心智理论能力,无法建立连贯一致的心理状态模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心智理论 大型语言模型 认知科学 因果推理 心理状态 行为预测 一致性评估

📋 核心要点

  1. 现有LLM的ToM评估侧重于基准测试,未能验证其是否真正具备心理状态的因果模型。
  2. 论文提出一种基于认知的心智理论定义的新评估框架,用于探测LLM是否具有连贯一致的心理状态模型。
  3. 实验表明,即使LLM在简单任务中表现良好,但在逻辑等价任务中失败,且行为预测与心理状态推断不一致。

📝 摘要(中文)

大型语言模型(LLMs)是否具备心智理论(ToM)?对此问题的研究主要集中于使用基准测试评估LLMs,并在各种社交任务中取得了成功。然而,这些评估并未测试ToM所假设的实际表征:即心理状态和行为的因果模型。本文采用认知科学的心智理论定义,开发并测试了一个新的评估框架。具体而言,该方法探测LLMs是否具有连贯、领域通用且一致的模型,用于理解心理状态如何导致行为——无论该模型是否与人类的心智理论相匹配。研究发现,即使LLMs在简单的心智理论范式中成功地近似了人类的判断,它们在逻辑上等效的任务中却失败了,并且其行为预测与相应的心理状态推断之间的一致性很低。因此,这些发现表明,LLMs所表现出的社交能力并非源于领域通用或一致的心智理论。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)在社交任务中表现出一定的能力,但它们是否真正具备心智理论(ToM)仍然是一个开放的问题。现有的评估方法主要依赖于基准测试,这些测试通常只关注LLMs在特定任务上的表现,而忽略了对LLMs内部表征的深入分析。特别是,这些方法未能验证LLMs是否具备一个连贯、领域通用且一致的心理状态模型,即理解心理状态如何导致行为的因果模型。因此,现有方法的痛点在于缺乏对LLMs心智理论能力本质的深入理解和评估。

核心思路:本文的核心思路是采用认知科学中对心智理论的定义,设计一种新的评估框架,用于探测LLMs是否具备一个连贯、领域通用且一致的心理状态模型。该框架不依赖于LLMs在特定任务上的表现,而是直接评估LLMs对心理状态和行为之间因果关系的理解。通过设计逻辑上等价但形式不同的任务,可以检验LLMs是否能够保持一致的推理能力。如果LLMs能够成功地完成所有任务,并且其行为预测与心理状态推断之间具有高度一致性,那么就可以认为LLMs具备一定的心智理论能力。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 定义心智理论:采用认知科学中对心智理论的定义,明确心智理论的核心要素,包括心理状态的表征、心理状态之间的因果关系以及心理状态与行为之间的关系。 2. 设计评估任务:设计一系列评估任务,用于探测LLMs是否具备连贯、领域通用且一致的心理状态模型。这些任务包括简单的心智理论范式和逻辑上等价但形式不同的任务。 3. 评估LLMs:使用评估任务评估LLMs的表现,并分析LLMs的行为预测与心理状态推断之间的一致性。 4. 分析结果:分析评估结果,判断LLMs是否具备心智理论能力。

关键创新:该研究的关键创新在于: 1. 采用认知科学的心智理论定义:与以往的研究不同,该研究采用认知科学中对心智理论的定义,更加注重对LLMs内部表征的深入分析。 2. 设计逻辑上等价但形式不同的任务:通过设计逻辑上等价但形式不同的任务,可以更加全面地评估LLMs的心智理论能力。 3. 评估行为预测与心理状态推断之间的一致性:通过评估行为预测与心理状态推断之间的一致性,可以更加准确地判断LLMs是否具备连贯一致的心理状态模型。

关键设计:该研究的关键设计包括: 1. 任务设计:设计了简单的心智理论范式,例如错误信念任务,以及逻辑上等价但形式不同的任务,例如反向推理任务。 2. 一致性评估:设计了一致性评估指标,用于评估LLMs的行为预测与心理状态推断之间的一致性。具体来说,该指标衡量了LLM在预测行为时所隐含的心理状态,与直接推断的心理状态之间的一致程度。

📊 实验亮点

实验结果表明,即使GPT-4o在简单的心智理论范式中表现良好,但在逻辑上等价的任务中却失败了。此外,GPT-4o的行为预测与心理状态推断之间的一致性很低。这些结果表明,GPT-4o缺乏核心的心智理论能力,无法建立连贯一致的心理状态模型。具体来说,一致性指标显著低于预期,表明模型在不同任务之间无法保持一致的推理。

🎯 应用场景

该研究的潜在应用领域包括人机交互、社交机器人和人工智能安全。理解LLMs的心智理论能力对于开发更自然、更可靠的人机交互系统至关重要。此外,该研究还可以帮助我们更好地理解LLMs的局限性,从而避免LLMs在社交场景中产生不当行为。未来,该研究可以扩展到更复杂的社交场景,并用于评估其他类型的人工智能系统。

📄 摘要(原文)

Do Large Language Models (LLMs) possess a Theory of Mind (ToM)? Research into this question has focused on evaluating LLMs against benchmarks and found success across a range of social tasks. However, these evaluations do not test for the actual representations posited by ToM: namely, a causal model of mental states and behavior. Here, we use a cognitively-grounded definition of ToM to develop and test a new evaluation framework. Specifically, our approach probes whether LLMs have a coherent, domain-general, and consistent model of how mental states cause behavior -- regardless of whether that model matches a human-like ToM. We find that even though LLMs succeed in approximating human judgments in a simple ToM paradigm, they fail at a logically equivalent task and exhibit low consistency between their action predictions and corresponding mental state inferences. As such, these findings suggest that the social proficiency exhibited by LLMs is not the result of an domain-general or consistent ToM.