PDDL-Mind: Large Language Models are Capable on Belief Reasoning with Reliable State Tracking
作者: Wang Bill Zhu, Qiutong Tony Yi, Robin Jia, Jesse Thomason
分类: cs.CL, cs.AI
发布日期: 2026-04-20
💡 一句话要点
PDDL-Mind:利用大语言模型进行可靠状态追踪的信念推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 理论心智 信念推理 大语言模型 神经符号 状态追踪
📋 核心要点
- 现有ToM基准测试中,大语言模型在信念推理方面表现不佳,主要原因是隐式状态追踪不可靠。
- PDDL-Mind通过将叙述转换为PDDL,显式表示状态和动作,并验证状态转换,从而实现可靠的状态追踪。
- 实验表明,PDDL-Mind在多个ToM基准测试中显著提升了性能,超过现有最佳方法5%以上。
📝 摘要(中文)
现有理论心智(ToM)基准测试中,即使通过思维链提示或概率信念更新增强,大型语言模型(LLMs)的表现也远低于人类水平。我们认为,这些失败主要源于不可靠的隐式状态追踪,而非高级推理的局限性。我们引入了PDDL-Mind,这是一个将环境状态演化与信念推理分离的神经符号框架。通过将叙述性描述转换为以规划领域定义语言(PDDL)表示的显式状态和动作,并根据预定义的领域验证动作引起的状态转换,PDDL-Mind为ToM任务提供了逻辑一致且显式的世界状态表示。在MMToM-QA、MuMA和FanToM上的实验表明,PDDL-Mind在ToM基准问题上实现了超过5%的绝对精度提升,优于现有的最佳方法。
🔬 方法详解
问题定义:现有大语言模型在理论心智任务中表现不佳,主要原因是它们在处理复杂叙事时,难以准确追踪角色的信念状态。隐式状态追踪容易出错,导致推理结果不准确。现有方法,如思维链提示和概率信念更新,无法有效解决这个问题。
核心思路:PDDL-Mind的核心思路是将环境状态的演化与信念推理解耦。通过将自然语言描述转换为形式化的规划领域定义语言(PDDL),可以显式地表示世界状态和动作,并使用逻辑规则来验证状态转换的有效性。这使得模型能够更可靠地追踪状态,从而提高信念推理的准确性。
技术框架:PDDL-Mind框架包含以下几个主要模块:1) 叙事解析器:将自然语言叙事转换为一系列动作和状态描述。2) PDDL转换器:将动作和状态描述转换为PDDL格式。3) 状态验证器:使用预定义的领域知识,验证动作引起的状态转换是否有效。4) 信念推理器:基于显式的状态表示和验证过的状态转换,进行信念推理,例如回答关于角色信念的问题。
关键创新:PDDL-Mind的关键创新在于使用神经符号方法,将大语言模型的自然语言理解能力与符号推理的精确性相结合。通过将叙事转换为PDDL,可以利用符号推理来验证状态转换,从而提高状态追踪的可靠性。与现有方法相比,PDDL-Mind提供了一种更结构化、更可解释的信念推理方法。
关键设计:PDDL-Mind的关键设计包括:1) PDDL领域的定义:需要仔细设计PDDL领域,以准确表示任务中的状态和动作。2) 叙事解析器的训练:需要训练叙事解析器,使其能够准确地将自然语言叙事转换为动作和状态描述。3) 状态验证器的实现:需要实现状态验证器,使其能够有效地验证状态转换的有效性。具体参数设置和网络结构取决于具体的任务和数据集。
🖼️ 关键图片
📊 实验亮点
PDDL-Mind在MMToM-QA、MuMA和FanToM三个ToM基准测试中均取得了显著的性能提升。在这些基准测试中,PDDL-Mind的准确率比现有最佳方法提高了超过5%。实验结果表明,通过显式地表示状态和动作,并使用逻辑规则来验证状态转换,可以显著提高大语言模型在信念推理任务中的性能。
🎯 应用场景
PDDL-Mind可应用于需要理解和推理他人信念的各种场景,例如人机协作、社交机器人、教育游戏等。通过提高机器的理论心智能力,可以使其更好地理解人类意图,从而实现更自然、更有效的交互。该研究还有助于开发更智能的对话系统和虚拟助手。
📄 摘要(原文)
Large language models (LLMs) perform substantially below human level on existing theory-of-mind (ToM) benchmarks, even when augmented with chain-of-thought prompting or probabilistic belief updates. We argue that these failures primarily arise from unreliable implicit state tracking rather than limitations in high-level reasoning. We introduce PDDL-Mind, a neuro-symbolic framework that decouples environment state evolution from belief inference. By translating narrative descriptions into explicit states and actions expressed in Planning Domain Definition Language (PDDL), and by verifying action-induced state transitions against a predefined domain, PDDL-Mind provides LLMs with a logically consistent and explicit representation of world states for ToM tasks. Experiments on MMToM-QA, MuMA and FanToM show that PDDL-Mind achieves over 5% absolute accuracy gain over the best existing state-of-the-art method on ToM benchmark questions.