GPT-4o Lacks Core Features of Theory of Mind

📄 arXiv: 2602.12150 📥 PDF

作者: John Muchovej, Amanda Royka, Shane Lee, Julian Jara-Ettinger

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-02-28


💡 一句话要点

GPT-4o缺乏核心的心智理论能力,无法建立一致的心智状态模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心智理论 大型语言模型 认知科学 人工智能评估 社会智能

📋 核心要点

  1. 现有LLM的ToM评估侧重于基准测试,未能深入考察其内在的心智状态因果模型。
  2. 论文提出一种新的评估框架,检验LLM是否具备连贯、通用且一致的心智状态行为模型。
  3. 实验表明,即使LLM在简单任务中表现良好,但在逻辑等价任务中失败,一致性较低。

📝 摘要(中文)

大型语言模型(LLMs)是否具备心智理论(ToM)?对此问题的研究主要集中于使用基准测试评估LLMs,并在各种社交任务中取得了成功。然而,这些评估并未测试ToM所假设的实际表征:即心理状态和行为的因果模型。本文采用认知基础的心智理论定义,开发并测试了一个新的评估框架。具体而言,该方法探测LLMs是否具有连贯、领域通用且一致的模型,用于理解心理状态如何引起行为——无论该模型是否与类人的ToM相匹配。研究发现,即使LLMs在简单ToM范式中成功地近似人类判断,它们在逻辑上等效的任务中也会失败,并且其行为预测与相应的心理状态推断之间的一致性较低。因此,这些发现表明,LLMs所表现出的社交能力并非源于领域通用或一致的ToM。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)是否真正具备心智理论(Theory of Mind, ToM),而不仅仅是表面上通过了某些社交任务的基准测试。现有方法的痛点在于,它们没有深入考察LLMs是否拥有一个连贯、领域通用且一致的心智状态和行为的因果模型。换句话说,即使LLMs能够模仿人类的判断,它们是否真的理解心理状态如何导致行为?

核心思路:论文的核心解决思路是,采用一个认知基础的ToM定义,并设计一个评估框架,该框架不仅测试LLMs在标准ToM任务中的表现,还测试它们在逻辑上等价但形式不同的任务中的表现。通过比较LLMs在不同任务中的一致性,可以更深入地了解它们是否真正具备ToM,还是仅仅在模仿人类行为。

技术框架:该评估框架包含以下几个主要步骤:1) 定义一个简单的心智理论范式,例如信念推理任务。2) 创建一个逻辑上等价的任务,该任务在表面上与原始任务不同,但需要相同的底层心智理论能力。3) 使用LLMs解决这两个任务,并记录它们的预测和推理。4) 评估LLMs在两个任务中的一致性。如果LLMs真正具备ToM,那么它们在两个任务中的表现应该是一致的。

关键创新:论文的关键创新在于,它提出了一种新的评估LLMs心智理论能力的方法,该方法不仅关注LLMs在标准任务中的表现,还关注它们在逻辑上等价任务中的一致性。这种方法可以更深入地了解LLMs是否真正具备ToM,还是仅仅在模仿人类行为。与现有方法相比,该方法更加严格和全面。

关键设计:论文的关键设计包括:1) 精心选择或设计逻辑上等价的ToM任务,确保它们在底层需要相同的心智理论能力。2) 使用一致性指标来量化LLMs在不同任务中的表现。3) 控制实验变量,以确保结果的可靠性。具体的参数设置、损失函数、网络结构等细节取决于所使用的LLM和具体的ToM任务,论文中可能未详细描述。

📊 实验亮点

实验结果表明,即使GPT-4o在简单的ToM任务中表现良好,但在逻辑等价的任务中会失败,并且其行为预测与相应的心理状态推断之间的一致性较低。这表明GPT-4o缺乏领域通用且一致的ToM。具体的性能数据和提升幅度未知,因为论文主要关注的是概念验证和方法论的提出,而非具体的性能优化。

🎯 应用场景

该研究成果可应用于提升AI系统的社会智能,例如在人机交互、社交机器人、智能助手等领域。通过更准确地评估和改进AI的心智理论能力,可以使AI系统更好地理解人类意图、预测人类行为,从而实现更自然、更有效的交互。未来的研究可以探索如何将心智理论融入到LLM的训练过程中,从而使AI系统真正具备理解和推理人类心理状态的能力。

📄 摘要(原文)

Do Large Language Models (LLMs) possess a Theory of Mind (ToM)? Research into this question has focused on evaluating LLMs against benchmarks and found success across a range of social tasks. However, these evaluations do not test for the actual representations posited by ToM: namely, a causal model of mental states and behavior. Here, we use a cognitively-grounded definition of ToM to develop and test a new evaluation framework. Specifically, our approach probes whether LLMs have a coherent, domain-general, and consistent model of how mental states cause behavior -- regardless of whether that model matches a human-like ToM. We find that even though LLMs succeed in approximating human judgments in a simple ToM paradigm, they fail at a logically equivalent task and exhibit low consistency between their action predictions and corresponding mental state inferences. As such, these findings suggest that the social proficiency exhibited by LLMs is not the result of a domain-general or consistent ToM.