SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs

📄 arXiv: 2410.13648v1 📥 PDF

作者: Yuling Gu, Oyvind Tafjord, Hyunwoo Kim, Jared Moore, Ronan Le Bras, Peter Clark, Yejin Choi

分类: cs.CL, cs.AI

发布日期: 2024-10-17


💡 一句话要点

SimpleToM:揭示大语言模型在显式心理理论推理和隐式应用之间的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 大语言模型 行为预测 合理性判断 数据集 思维链提示

📋 核心要点

  1. 现有工作缺乏对LLM在实际场景中隐式应用心理理论(ToM)能力进行系统性评估,无法判断其能否合理预测行为。
  2. 论文提出了SimpleToM数据集,旨在系统性地评估LLM在预测心理状态、行为以及判断行为合理性方面的ToM能力。
  3. 实验表明,LLM在预测心理状态方面表现较好,但在预测行为和判断合理性方面表现较差,需要额外的干预才能提升性能。

📝 摘要(中文)

本文探讨了大语言模型(LLM)是否具备“心理理论”(ToM)能力,即推断自己和他人心理状态的能力。现有研究较少关注LLM能否隐式地应用这些知识来预测行为或判断行为的合理性。为此,作者创建了一个新的数据集SimpleToM,包含简洁多样的故事,每个故事都带有三个问题,分别测试不同程度的ToM推理能力,包括预测心理状态、预测行为和判断行为的合理性。实验结果表明,虽然大多数模型可以可靠地预测心理状态,但它们在正确预测行为和判断行为合理性方面表现不佳。通过提醒模型之前的心理状态答案和使用特定于心理状态的思维链提示等干预措施,可以提高模型在行为预测和判断方面的准确性。这表明模型可以通过任务特定的干预来提高性能,但自然性能仍然较低,这对LLM的部署提出了警示。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在隐式心理理论(ToM)应用方面的不足。现有方法主要关注LLM是否具备显式的ToM推理能力,而忽略了其在实际场景中应用ToM知识来预测行为和判断行为合理性的能力。这种能力对于LLM在社交环境中的适当交互至关重要。

核心思路:论文的核心思路是通过构建一个包含简洁、多样故事的数据集SimpleToM,系统性地评估LLM在不同ToM推理任务上的表现。该数据集包含预测心理状态、预测行为和判断行为合理性三个不同难度的问题,从而揭示LLM在显式ToM推理和隐式ToM应用之间的差距。

技术框架:整体框架包括以下几个步骤:1) 构建SimpleToM数据集,包含故事和三个不同类型的ToM推理问题;2) 使用不同的LLM(如GPT-3、GPT-4o等)在SimpleToM数据集上进行测试;3) 分析LLM在不同类型问题上的表现,评估其ToM能力;4) 通过干预措施(如提醒模型之前的心理状态答案、使用特定于心理状态的思维链提示)来提高LLM在行为预测和判断方面的准确性。

关键创新:论文的关键创新在于:1) 提出了SimpleToM数据集,这是首个系统性地探索LLM在现实场景中应用ToM知识进行下游推理的数据集;2) 揭示了LLM在显式ToM推理(预测心理状态)和隐式ToM应用(预测行为、判断合理性)之间存在显著差距;3) 提出了有效的干预措施,可以显著提高LLM在行为预测和判断方面的准确性。

关键设计:SimpleToM数据集包含简洁、多样的故事,每个故事都设计了三个问题:(a) 预测主角的心理状态;(b) 预测主角的行为;(c) 判断主角行为的合理性。干预措施包括:1) 提醒模型之前的心理状态答案,引导模型利用已知的心理状态信息进行后续推理;2) 使用特定于心理状态的思维链提示,引导模型逐步推理,从而提高行为预测和判断的准确性。具体参数设置和损失函数等技术细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在预测心理状态方面表现较好,但在预测行为和判断合理性方面表现较差。例如,GPT-4o在预测行为方面的准确率仅为49.5%,在判断合理性方面的准确率仅为15.3%。通过提醒模型之前的心理状态答案和使用特定于心理状态的思维链提示等干预措施,GPT-4o在预测行为方面的准确率提高到93.5%,在判断合理性方面的准确率提高到94.7%。

🎯 应用场景

该研究成果可应用于提升LLM在社交机器人、智能助手等领域的表现。通过提高LLM的ToM能力,可以使其更好地理解人类行为,从而进行更自然、更合理的交互。未来的研究可以进一步探索更有效的干预措施,以及如何将ToM能力融入LLM的预训练过程中。

📄 摘要(原文)

While prior work has explored whether large language models (LLMs) possess a "theory of mind" (ToM) - the ability to attribute mental states to oneself and others - there has been little work testing whether LLMs can implicitly apply such knowledge to predict behavior, or to judge whether an observed behavior is rational. Such skills are critical for appropriate interaction in social environments. We create a new dataset, SimpleTom, containing concise, diverse stories (e.g., "The can of Pringles has moldy chips in it. Mary picks up the can in the supermarket and walks to the cashier."), each with three questions that test different degrees of ToM reasoning, asking models to predict (a) mental state ("Is Mary aware of the mold?"), (b) behavior ("Will Mary pay for the chips or report the mold?"), and (c) judgment ("Mary paid for the chips. Was that reasonable?"). To our knowledge, SimpleToM is the first dataset to systematically explore downstream reasoning requiring knowledge of mental states in realistic scenarios. Our experimental results are intriguing: While most models can reliably predict mental state on our dataset (a), they often fail to correctly predict the behavior (b), and fare even worse at judging whether given behaviors are reasonable (c), despite being correctly aware of the protagonist's mental state should make such secondary predictions obvious. We further show that we can help models do better at (b) and (c) via interventions such as reminding the model of its earlier mental state answer and mental-state-specific chain-of-thought prompting, raising the action prediction accuracies (e.g., from 49.5% to 93.5% for GPT-4o) and judgment accuracies (e.g., from 15.3% to 94.7% in GPT-4o). While this shows that models can be coaxed to perform well, it requires task-specific interventions, and the natural model performances remain low, a cautionary tale for LLM deployment.