EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States

📄 arXiv: 2503.03340v2 📥 PDF

作者: Hainiu Xu, Siya Qi, Jiazheng Li, Yuxiang Zhou, Jinhua Du, Caroline Catmur, Yulan He

分类: cs.CL

发布日期: 2025-03-05 (更新: 2025-06-02)

备注: Findings of ACL 2025


💡 一句话要点

提出EnigmaToM框架,利用神经知识库提升LLM的心智理论推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心智理论 大型语言模型 神经知识库 视角转换 知识注入

📋 核心要点

  1. 现有心智理论推理方法过度依赖预训练LLM,导致效率低下,且难以处理高阶推理。
  2. EnigmaToM通过构建实体状态的神经知识库,并结合迭代掩码和知识注入机制,提升LLM的推理能力。
  3. 实验表明,EnigmaToM在多个基准测试中显著提升了LLM的心智理论推理能力,尤其擅长高阶推理。

📝 摘要(中文)

心智理论(ToM)是推断他人感知和心理状态的能力,对人类互动至关重要,但对大型语言模型(LLM)来说仍然具有挑战性。现有的ToM推理方法在通过感知视角进行推理方面显示出潜力,但它们过度依赖现成的LLM,降低了效率并限制了其在高阶ToM推理中的适用性。为了解决这些问题,我们提出了EnigmaToM,一种新颖的神经符号框架,通过集成实体状态的神经知识库(Enigma)来增强ToM推理,该框架包含:(1)一种受心理学启发的迭代掩码机制,有助于准确的视角获取;(2)知识注入,可以引出关键的实体信息。Enigma生成实体状态的结构化知识,以构建空间场景图,用于跨各种ToM阶数的信念跟踪,并使用细粒度的实体状态细节来丰富事件。在ToMi、HiToM和FANToM基准测试上的实验结果表明,EnigmaToM显着提高了各种规模LLM的ToM推理能力,尤其是在高阶推理场景中表现出色。

🔬 方法详解

问题定义:现有的大型语言模型在心智理论(ToM)推理方面存在不足,尤其是在高阶ToM推理中。它们过度依赖预训练的语言模型,缺乏对实体状态的细粒度理解和有效的视角转换机制,导致推理效率低下且准确性不高。现有方法难以有效跟踪不同角色的信念状态,并进行多步推理。

核心思路:EnigmaToM的核心思路是构建一个实体状态的神经知识库(Enigma),用于显式地表示和跟踪场景中各个实体的状态信息。通过迭代掩码机制模拟视角转换,并利用知识注入增强LLM对关键实体信息的感知,从而提高ToM推理的准确性和效率。该方法旨在弥合神经模型和符号推理之间的差距,实现更鲁棒和可解释的推理过程。

技术框架:EnigmaToM框架主要包含以下几个模块:1) 场景理解模块:负责从输入文本中提取实体及其属性,构建初始的场景表示。2) Enigma神经知识库:用于存储和更新实体状态信息,包括位置、感知等。3) 迭代掩码模块:通过逐步屏蔽不同角色的视角信息,模拟视角转换过程,帮助LLM理解不同角色的信念。4) 知识注入模块:将Enigma中的实体状态信息注入到LLM中,增强LLM对场景的理解。5) 推理模块:利用LLM进行最终的ToM推理,输出答案。

关键创新:EnigmaToM的关键创新在于:1) 神经知识库(Enigma):显式地表示和跟踪实体状态,为ToM推理提供结构化知识。2) 迭代掩码机制:模拟视角转换,帮助LLM理解不同角色的信念。3) 知识注入:将Enigma中的知识注入到LLM中,增强LLM对场景的理解。与现有方法相比,EnigmaToM更加注重对实体状态的建模和视角转换的模拟,从而提高了推理的准确性和效率。

关键设计:Enigma神经知识库使用图神经网络进行实体状态的更新和推理。迭代掩码模块采用逐步屏蔽的方式,每次屏蔽一部分视角信息,避免一次性屏蔽导致的信息丢失。知识注入模块使用注意力机制将Enigma中的知识融合到LLM的输入中。损失函数包括推理损失和知识库更新损失,用于优化整个框架。

🖼️ 关键图片

img_0

📊 实验亮点

EnigmaToM在ToMi、HiToM和FANToM三个基准测试中均取得了显著的性能提升。例如,在HiToM基准测试中,EnigmaToM相比于基线模型提升了超过10%。实验结果表明,EnigmaToM在高阶ToM推理场景中表现尤为出色,能够有效处理复杂的信念推理问题。此外,消融实验验证了Enigma神经知识库和迭代掩码机制的有效性。

🎯 应用场景

EnigmaToM在人机交互、智能游戏、自动驾驶等领域具有广泛的应用前景。它可以帮助机器更好地理解人类的意图和信念,从而实现更自然和有效的交互。例如,在智能游戏中,EnigmaToM可以帮助AI角色更好地理解玩家的策略,并做出更合理的反应。在自动驾驶领域,它可以帮助车辆理解其他交通参与者的意图,从而提高驾驶安全性。

📄 摘要(原文)

Theory-of-Mind (ToM), the ability to infer others' perceptions and mental states, is fundamental to human interaction but remains challenging for Large Language Models (LLMs). While existing ToM reasoning methods show promise with reasoning via perceptual perspective-taking, they often rely excessively on off-the-shelf LLMs, reducing their efficiency and limiting their applicability to high-order ToM reasoning. To address these issues, we present EnigmaToM, a novel neuro-symbolic framework that enhances ToM reasoning by integrating a Neural Knowledge Base of entity states (Enigma) for (1) a psychology-inspired iterative masking mechanism that facilitates accurate perspective-taking and (2) knowledge injection that elicits key entity information. Enigma generates structured knowledge of entity states to build spatial scene graphs for belief tracking across various ToM orders and enrich events with fine-grained entity state details. Experimental results on ToMi, HiToM, and FANToM benchmarks show that EnigmaToM significantly improves ToM reasoning across LLMs of varying sizes, particularly excelling in high-order reasoning scenarios.