Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task?

📄 arXiv: 2406.14737v2 📥 PDF

作者: Zhiqiang Pi, Annapurna Vadaparty, Benjamin K. Bergen, Cameron R. Jones

分类: cs.CL

发布日期: 2024-06-20 (更新: 2025-05-27)


💡 一句话要点

SCALPEL方法剖析LLM在信念推理任务中的失效原因

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理理论 常识推理 错误信念任务 可解释性 认知科学 推理能力

📋 核心要点

  1. 现有研究表明LLM在心理理论任务中表现不一致,对刺激的微小改变敏感。
  2. 论文提出SCALPEL方法,通过逐步修改刺激来诊断LLM失效的具体原因。
  3. 实验表明LLM在透明访问场景下,未能进行“看到透明容器意味着识别其内容”的常识推理。

📝 摘要(中文)

最近的实验结果引发了关于大型语言模型(LLM)是否具备心理理论(ToM)能力的争论。虽然一些研究发现LLM在诸如错误信念任务等ToM评估中表现出色,但另一些研究表明,它们在面对刺激的微小改变时表现并不稳定。在本文中,我们介绍了一种名为SCALPEL的技术,该技术通过逐步修改刺激来测试关于LLM失效原因的不同特定假设。我们将此方法应用于“透明访问”的意外内容任务。我们的结果表明,LLM表现不佳通常是因为它们未能进行必要的常识推理,例如看到透明容器意味着识别其内容。我们得出结论,虽然现代LLM超越了单纯的模式匹配,但它们仍然缺乏强大的人类式ToM。我们认为,SCALPEL可以帮助认知科学家更详细地检查LLM的能力,并深入了解用于评估人类认知的任务可能完成的替代机制。

🔬 方法详解

问题定义:论文旨在解决LLM在执行心理理论(Theory of Mind, ToM)任务,特别是错误信念任务(False Belief Task)时,对刺激的微小变化表现出不稳定性的问题。现有的研究无法明确指出LLM失效的具体原因,仅仅是观察到性能下降,缺乏对LLM推理过程的深入剖析。

核心思路:论文的核心思路是提出一种名为SCALPEL(Surgical Controlled Alteration of Prompts to Elicit Language model Explanation)的方法,通过逐步、可控地修改输入刺激,来测试LLM在不同推理步骤上的表现。这种方法类似于外科手术,精准地“解剖”LLM的推理过程,从而确定其失效的关键环节。通过观察LLM在不同修改后的刺激下的表现,研究者可以推断出LLM是否具备特定的常识推理能力。

技术框架:SCALPEL方法主要包含以下几个步骤: 1. 基线任务:首先,使用标准的错误信念任务作为基线,评估LLM的初始性能。 2. 刺激修改:然后,逐步修改任务的刺激,例如,将容器设置为透明的,或者明确告知LLM容器的内容。 3. 性能评估:在每次修改后,评估LLM在修改后的任务上的表现,并与基线性能进行比较。 4. 原因分析:根据LLM在不同修改后的刺激下的表现,分析其失效的原因,例如,是否缺乏常识推理能力,或者是否对任务的特定细节过于敏感。

关键创新:SCALPEL方法的关键创新在于其可控性和可解释性。与传统的黑盒测试方法不同,SCALPEL允许研究者深入了解LLM的推理过程,并确定其失效的具体原因。这种方法可以帮助研究者更好地理解LLM的能力和局限性,并为改进LLM的推理能力提供指导。

关键设计:在本文中,SCALPEL方法被应用于“透明访问”的意外内容任务。关键的设计在于逐步引入透明容器的概念,并观察LLM是否能够推断出角色能够看到容器内的内容。通过比较LLM在不同透明度下的表现,研究者可以评估LLM是否具备“看到透明容器意味着识别其内容”的常识推理能力。具体的参数设置和网络结构取决于所使用的LLM模型,但SCALPEL方法本身是一种通用的测试框架,可以应用于不同的LLM模型。

📊 实验亮点

实验结果表明,LLM在“透明访问”的意外内容任务中表现不佳,即使容器是透明的,LLM也未能正确推断出角色能够看到容器内的内容。这表明LLM缺乏必要的常识推理能力,无法进行简单的因果推断。该研究强调了LLM在心理理论方面仍然存在局限性,需要进一步改进。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的推理能力,特别是在需要常识推理和心理理论的任务中。SCALPEL方法为认知科学家提供了一种新的工具,可以更深入地了解LLM的认知机制,并指导LLM的改进方向。此外,该方法还可以用于评估其他AI系统的推理能力,并促进更可靠、更智能的人工智能系统的开发。

📄 摘要(原文)

Recent empirical results have sparked a debate about whether or not Large Language Models (LLMs) are capable of Theory of Mind (ToM). While some have found LLMs to be successful on ToM evaluations such as the False Belief task, others have shown that their performance is not robust against trivial alterations to stimuli. In this paper, we introduce SCALPEL -- a technique to incrementally modify stimuli to test different specific hypotheses about why LLMs fail -- and apply this method to the "transparent-access" modification of the unexpected contents task. Our results suggest that LLMs often do poorly because they fail to make essential common-sense inferences, such as that seeing a transparent container implies recognizing its contents. We conclude that while modern LLMs go beyond mere pattern matching, they still fall short of robust human-like ToM. We argue that SCALPEL can help cognitive scientists examine LLMs' capabilities in finer detail and provide insight into alternative mechanisms by which tasks that are used to assess human cognition might be completed.