PDDL-Mind: Large Language Models are Capable on Belief Reasoning with Reliable State Tracking

作者: Wang Bill Zhu, Qiutong Tony Yi, Robin Jia, Jesse Thomason

分类: cs.CL, cs.AI

发布日期: 2026-04-20

💡 一句话要点

PDDL-Mind：利用大语言模型进行可靠状态追踪的信念推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 理论心智 信念推理 大语言模型 神经符号 状态追踪

📋 核心要点

现有ToM基准测试中，大语言模型在信念推理方面表现不佳，主要原因是隐式状态追踪不可靠。
PDDL-Mind通过将叙述转换为PDDL，显式表示状态和动作，并验证状态转换，从而实现可靠的状态追踪。
实验表明，PDDL-Mind在多个ToM基准测试中显著提升了性能，超过现有最佳方法5%以上。

📝 摘要（中文）

现有理论心智（ToM）基准测试中，即使通过思维链提示或概率信念更新增强，大型语言模型（LLMs）的表现也远低于人类水平。我们认为，这些失败主要源于不可靠的隐式状态追踪，而非高级推理的局限性。我们引入了PDDL-Mind，这是一个将环境状态演化与信念推理分离的神经符号框架。通过将叙述性描述转换为以规划领域定义语言（PDDL）表示的显式状态和动作，并根据预定义的领域验证动作引起的状态转换，PDDL-Mind为ToM任务提供了逻辑一致且显式的世界状态表示。在MMToM-QA、MuMA和FanToM上的实验表明，PDDL-Mind在ToM基准问题上实现了超过5%的绝对精度提升，优于现有的最佳方法。

🔬 方法详解

问题定义：现有大语言模型在理论心智任务中表现不佳，主要原因是它们在处理复杂叙事时，难以准确追踪角色的信念状态。隐式状态追踪容易出错，导致推理结果不准确。现有方法，如思维链提示和概率信念更新，无法有效解决这个问题。

核心思路：PDDL-Mind的核心思路是将环境状态的演化与信念推理解耦。通过将自然语言描述转换为形式化的规划领域定义语言（PDDL），可以显式地表示世界状态和动作，并使用逻辑规则来验证状态转换的有效性。这使得模型能够更可靠地追踪状态，从而提高信念推理的准确性。

技术框架：PDDL-Mind框架包含以下几个主要模块：1) 叙事解析器：将自然语言叙事转换为一系列动作和状态描述。2) PDDL转换器：将动作和状态描述转换为PDDL格式。3) 状态验证器：使用预定义的领域知识，验证动作引起的状态转换是否有效。4) 信念推理器：基于显式的状态表示和验证过的状态转换，进行信念推理，例如回答关于角色信念的问题。

关键创新：PDDL-Mind的关键创新在于使用神经符号方法，将大语言模型的自然语言理解能力与符号推理的精确性相结合。通过将叙事转换为PDDL，可以利用符号推理来验证状态转换，从而提高状态追踪的可靠性。与现有方法相比，PDDL-Mind提供了一种更结构化、更可解释的信念推理方法。

关键设计：PDDL-Mind的关键设计包括：1) PDDL领域的定义：需要仔细设计PDDL领域，以准确表示任务中的状态和动作。2) 叙事解析器的训练：需要训练叙事解析器，使其能够准确地将自然语言叙事转换为动作和状态描述。3) 状态验证器的实现：需要实现状态验证器，使其能够有效地验证状态转换的有效性。具体参数设置和网络结构取决于具体的任务和数据集。

🖼️ 关键图片

📊 实验亮点

PDDL-Mind在MMToM-QA、MuMA和FanToM三个ToM基准测试中均取得了显著的性能提升。在这些基准测试中，PDDL-Mind的准确率比现有最佳方法提高了超过5%。实验结果表明，通过显式地表示状态和动作，并使用逻辑规则来验证状态转换，可以显著提高大语言模型在信念推理任务中的性能。

🎯 应用场景

PDDL-Mind可应用于需要理解和推理他人信念的各种场景，例如人机协作、社交机器人、教育游戏等。通过提高机器的理论心智能力，可以使其更好地理解人类意图，从而实现更自然、更有效的交互。该研究还有助于开发更智能的对话系统和虚拟助手。

📄 摘要（原文）

Large language models (LLMs) perform substantially below human level on existing theory-of-mind (ToM) benchmarks, even when augmented with chain-of-thought prompting or probabilistic belief updates. We argue that these failures primarily arise from unreliable implicit state tracking rather than limitations in high-level reasoning. We introduce PDDL-Mind, a neuro-symbolic framework that decouples environment state evolution from belief inference. By translating narrative descriptions into explicit states and actions expressed in Planning Domain Definition Language (PDDL), and by verifying action-induced state transitions against a predefined domain, PDDL-Mind provides LLMs with a logically consistent and explicit representation of world states for ToM tasks. Experiments on MMToM-QA, MuMA and FanToM show that PDDL-Mind achieves over 5% absolute accuracy gain over the best existing state-of-the-art method on ToM benchmark questions.

PDDL-Mind: Large Language Models are Capable on Belief Reasoning with Reliable State Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理