Zero, Finite, and Infinite Belief History of Theory of Mind Reasoning in Large Language Models

📄 arXiv: 2406.04800v1 📥 PDF

作者: Weizhi Tang, Vaishak Belle

分类: cs.AI, cs.CL

发布日期: 2024-06-07


💡 一句话要点

提出基于信念历史的ToM推理框架,评估LLM在多轮文本游戏中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 信念推理 大型语言模型 多轮对话 文本游戏

📋 核心要点

  1. 现有ToM评估方法难以全面衡量LLM在不同信念状态下的推理能力,尤其是在多轮交互中。
  2. 提出基于零、有限和无限信念历史的ToM推理框架,模拟不同复杂度的信念更新过程。
  3. 设计多轮文本游戏“选择正确的物品”作为基准,实验表明模型在零信念历史下表现更好。

📝 摘要(中文)

大型语言模型(LLM)最近在心理理论(ToM)能力方面展现出潜力,甚至在某些ToM任务中优于人类。为了评估和扩展LLM的ToM推理能力边界,我们提出了一个新颖的概念、分类和框架,即具有零、有限和无限信念历史的ToM推理,并开发了一个名为“选择正确的物品”(Pick the Right Stuff)的多轮文本游戏作为基准。我们使用此游戏评估了六个LLM,发现它们在零信念历史上的表现始终优于有限信念历史。此外,我们发现两个具有较小参数尺寸的模型优于所有评估的具有较大参数尺寸的模型。我们希望这项工作为未来的ToM基准开发铺平道路,并促进需要配备更复杂ToM推理能力的更复杂AI代理或系统的发展。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在不同信念状态下的心理理论(ToM)推理能力。现有的ToM评估方法通常侧重于静态场景或简单的信念推理,缺乏对多轮交互中信念动态变化的考量,难以全面衡量LLM的ToM能力。此外,现有方法难以区分LLM是真正理解了信念推理,还是仅仅通过模式匹配来完成任务。

核心思路:论文的核心思路是将ToM推理与信念历史的概念相结合,提出了零、有限和无限信念历史三种不同的推理场景。通过控制LLM在推理过程中可以访问的信念信息量,来评估其在不同复杂程度下的ToM能力。这种设计可以更精细地分析LLM的推理过程,并区分其是真正理解了信念推理,还是仅仅依赖于表面模式。

技术框架:论文构建了一个多轮文本游戏“选择正确的物品”作为评估基准。游戏涉及两个角色:Alice和Bob。Alice隐藏一个物品,Bob需要通过与Alice的对话来推断物品的位置。游戏根据Bob可以访问的Alice的信念历史信息量分为三种类型:零信念历史(Bob只能访问当前轮的对话),有限信念历史(Bob可以访问过去几轮的对话),无限信念历史(Bob可以访问所有历史对话)。通过比较LLM在不同类型游戏中的表现,来评估其ToM能力。

关键创新:论文的关键创新在于提出了基于信念历史的ToM推理框架,并将其应用于LLM的评估。与现有方法相比,该框架可以更全面、更精细地评估LLM的ToM能力,并区分其是真正理解了信念推理,还是仅仅依赖于表面模式。此外,论文设计的多轮文本游戏“选择正确的物品”也为未来的ToM基准开发提供了一个新的思路。

关键设计:论文的关键设计包括:1) 三种不同类型的信念历史设置,用于控制LLM可以访问的信念信息量;2) 多轮文本游戏“选择正确的物品”,用于模拟真实的交互场景;3) 评估指标,用于衡量LLM在不同类型游戏中的表现。具体的参数设置和网络结构取决于所评估的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在零信念历史下的表现优于有限信念历史,这表明LLM在处理动态信念更新方面仍存在挑战。令人惊讶的是,两个参数量较小的模型优于所有参数量较大的模型,这可能表明模型架构和训练数据比模型规模更重要。这些发现为未来的LLM研究提供了重要的启示。

🎯 应用场景

该研究成果可应用于开发更智能、更具人情味的AI助手和聊天机器人。通过提升AI的ToM推理能力,可以使其更好地理解人类的意图、预测人类的行为,从而实现更自然、更有效的交互。此外,该研究也有助于开发更可靠的自动驾驶系统和决策支持系统,这些系统需要在复杂环境中进行推理和决策。

📄 摘要(原文)

Large Language Models (LLMs) have recently shown a promise and emergence of Theory of Mind (ToM) ability and even outperform humans in certain ToM tasks. To evaluate and extend the boundaries of the ToM reasoning ability of LLMs, we propose a novel concept, taxonomy, and framework, the ToM reasoning with Zero, Finite, and Infinite Belief History and develop a multi-round text-based game, called $\textit{Pick the Right Stuff}$, as a benchmark. We have evaluated six LLMs with this game and found their performance on Zero Belief History is consistently better than on Finite Belief History. In addition, we have found two of the models with small parameter sizes outperform all the evaluated models with large parameter sizes. We expect this work to pave the way for future ToM benchmark development and also for the promotion and development of more complex AI agents or systems which are required to be equipped with more complex ToM reasoning ability.