Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models

作者: Christian Nickel, Laura Schrewe, Florian Mai, Lucie Flek

分类: cs.CL, cs.AI

发布日期: 2026-02-25

💡 一句话要点

通过扰动任务和思维链推理评估大型语言模型中的心理理论能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理理论 大型语言模型 思维链提示 任务扰动 推理能力

📋 核心要点

现有方法难以评估大型语言模型在复杂情境下的心理理论能力，尤其是在任务存在扰动时。
论文通过引入扰动任务和分析思维链推理，更深入地评估LLM的心理理论能力，并探究CoT提示的影响。
实验表明，任务扰动会导致LLM的ToM能力显著下降，CoT提示虽然总体上有所提升，但在某些情况下会降低准确性。

📝 摘要（中文）

本研究旨在探讨大型语言模型（LLMs）是否具备真正的心理理论（ToM）能力，即模拟他人内在状态的能力。我们通过对错误信念任务进行扰动，并考察思维链提示（CoT）在提升性能和解释LLM决策方面的潜力，来研究LLM的ToM鲁棒性。我们构建了一个手工标注的、信息丰富的ToM数据集，包括经典和扰动的错误信念任务，以及用于正确完成任务的有效推理链空间。我们提出了评估推理链正确性的指标，以及最终答案对生成CoT推理轨迹的忠实程度的指标。结果表明，所有评估的LLM在任务扰动下ToM能力急剧下降，这质疑了是否存在任何稳健的ToM形式。虽然CoT提示总体上以忠实的方式提高了ToM性能，但令人惊讶的是，它降低了某些扰动类别的准确性，表明有必要进行选择性应用。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）是否具备鲁棒的心理理论（ToM）能力。现有方法在评估LLM的ToM能力时，往往忽略了任务扰动的影响，导致评估结果可能过于乐观。此外，现有方法缺乏对LLM推理过程的深入分析，难以解释其决策依据。

核心思路：论文的核心思路是通过引入扰动任务来挑战LLM的ToM能力，并利用思维链（CoT）提示来增强LLM的推理能力和可解释性。通过分析LLM在扰动任务下的表现和CoT推理过程，可以更准确地评估其ToM鲁棒性。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建一个手工标注的ToM数据集，包含经典和扰动的错误信念任务，以及对应的有效推理链空间。2) 使用不同的LLM和CoT提示策略，在ToM数据集上进行实验。3) 提出评估推理链正确性和答案忠实度的指标，用于分析LLM的推理过程。4) 分析实验结果，评估LLM的ToM鲁棒性和CoT提示的效果。

关键创新：论文的关键创新在于：1) 引入了扰动任务的概念，更全面地评估LLM的ToM能力。2) 提出了评估推理链正确性和答案忠实度的指标，更深入地分析LLM的推理过程。3) 揭示了CoT提示在某些情况下会降低LLM准确性的现象，表明需要进行选择性应用。

关键设计：论文的关键设计包括：1) ToM数据集的构建，需要精心设计扰动任务，并标注对应的有效推理链。2) CoT提示策略的选择，需要考虑不同LLM的特点和任务的复杂性。3) 评估指标的设计，需要能够准确反映LLM的推理能力和答案的忠实度。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，所有评估的LLM在任务扰动下ToM能力急剧下降，这表明LLM可能并不具备真正的、鲁棒的心理理论能力。CoT提示虽然总体上提高了ToM性能，但在某些扰动类别中却降低了准确性，这提示我们需要谨慎使用CoT提示，并根据具体任务进行调整。

🎯 应用场景

该研究成果可应用于评估和提升人工智能系统的社会智能，例如在人机协作、对话系统和智能体设计等领域。通过更准确地评估AI系统的心理理论能力，可以开发出更安全、可靠和符合人类价值观的AI系统。未来的研究可以探索如何利用该方法来诊断和修复AI系统中的认知偏差。

📄 摘要（原文）

Theory of Mind (ToM) refers to an agent's ability to model the internal states of others. Contributing to the debate whether large language models (LLMs) exhibit genuine ToM capabilities, our study investigates their ToM robustness using perturbations on false-belief tasks and examines the potential of Chain-of-Thought prompting (CoT) to enhance performance and explain the LLM's decision. We introduce a handcrafted, richly annotated ToM dataset, including classic and perturbed false belief tasks, the corresponding spaces of valid reasoning chains for correct task completion, subsequent reasoning faithfulness, task solutions, and propose metrics to evaluate reasoning chain correctness and to what extent final answers are faithful to reasoning traces of the generated CoT. We show a steep drop in ToM capabilities under task perturbation for all evaluated LLMs, questioning the notion of any robust form of ToM being present. While CoT prompting improves the ToM performance overall in a faithful manner, it surprisingly degrades accuracy for some perturbation classes, indicating that selective application is necessary.