Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning

📄 arXiv: 2509.13351v1 📥 PDF

作者: Pulkit Verma, Ngoc La, Anthony Favier, Swaroop Mishra, Julie A. Shah

分类: cs.AI, cs.CL

发布日期: 2025-09-14


💡 一句话要点

提出PDDL-Instruct框架,通过逻辑链式思维指令微调提升LLM的符号规划能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 符号规划 大型语言模型 指令微调 链式思维 PDDL

📋 核心要点

  1. 现有LLM在符号规划任务中表现不足,尤其是在需要形式化表示的PDDL领域,缺乏有效的推理能力。
  2. PDDL-Instruct框架通过指令微调,教导LLM进行逻辑链式思维,显式推理动作适用性、状态转换和计划有效性。
  3. 实验结果表明,该方法显著提升了LLM的规划能力,在标准基准测试中准确率高达94%,相比基线模型提升了66%。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中表现出令人印象深刻的能力,但它们执行结构化符号规划的能力仍然有限,尤其是在需要形式化表示的领域,如规划领域定义语言(PDDL)。本文提出了一种新颖的指令微调框架PDDL-Instruct,旨在通过逻辑链式思维推理增强LLMs的符号规划能力。我们的方法侧重于教导模型使用显式的逻辑推理步骤来严格推理动作适用性、状态转换和计划有效性。通过开发指令提示,引导模型完成精确的逻辑推理,以确定何时可以在给定状态下应用动作,我们使LLMs能够通过结构化的反思来自我纠正其规划过程。该框架通过将规划过程分解为关于前提条件满足、效果应用和不变性保持的显式推理链,系统地构建验证技能。在多个规划领域上的实验结果表明,我们基于链式思维推理的指令微调模型在规划方面明显更好,在标准基准测试中实现了高达94%的规划准确率,比基线模型提高了66%。这项工作弥合了LLMs的通用推理能力与自动化规划所需的逻辑精度之间的差距,为开发更好的AI规划系统提供了一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在符号规划任务中的不足,尤其是在需要形式化表示的规划领域定义语言(PDDL)环境下的规划问题。现有方法难以让LLM进行有效的逻辑推理,导致规划准确率较低。

核心思路:论文的核心思路是通过指令微调(Instruction Tuning)的方式,教导LLM进行逻辑链式思维(Logical Chain-of-Thought Reasoning)。具体来说,就是设计一系列指令,引导模型逐步推理动作的前提条件是否满足、动作执行后的状态转移以及计划的有效性。通过这种方式,模型可以学习到如何进行结构化的反思和自我纠正,从而提高规划的准确性。

技术框架:PDDL-Instruct框架主要包含以下几个阶段:1) 数据集构建:构建包含PDDL规划问题和对应逻辑推理步骤的指令微调数据集。2) 指令微调:使用构建的数据集对LLM进行微调,使其能够理解并执行逻辑链式思维推理。3) 评估:在标准PDDL规划基准测试上评估微调后的LLM的规划性能。框架的核心在于指令的设计,这些指令需要能够引导模型逐步推理动作的适用性、状态转移和计划的有效性。

关键创新:该论文的关键创新在于提出了基于逻辑链式思维的指令微调方法,将复杂的规划问题分解为一系列简单的逻辑推理步骤,并教导LLM逐步执行这些步骤。与传统的端到端规划方法相比,该方法更具可解释性和可控性,并且能够显著提高LLM的规划准确率。

关键设计:指令的设计是该方法成功的关键。指令需要包含以下几个方面的信息:1) 当前状态的描述。2) 待执行动作的描述。3) 动作的前提条件。4) 动作执行后的状态转移。5) 计划的有效性。此外,论文还设计了相应的损失函数,用于指导模型学习如何进行逻辑链式思维推理。具体的参数设置和网络结构信息在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,PDDL-Instruct框架显著提升了LLM的规划能力,在标准PDDL规划基准测试中实现了高达94%的规划准确率,相比基线模型提升了66%。这一结果表明,通过逻辑链式思维指令微调,可以有效弥合LLM的通用推理能力与自动化规划所需的逻辑精度之间的差距。

🎯 应用场景

该研究成果可应用于机器人、自动化流程设计、游戏AI等领域。通过提升LLM的符号规划能力,可以使AI系统更好地理解和解决复杂问题,实现更智能化的决策和控制。未来,该技术有望应用于更广泛的领域,例如智能交通、智能制造等。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive capabilities across diverse tasks, yet their ability to perform structured symbolic planning remains limited, particularly in domains requiring formal representations like the Planning Domain Definition Language (PDDL). In this paper, we present a novel instruction tuning framework, PDDL-Instruct, designed to enhance LLMs' symbolic planning capabilities through logical chain-of-thought reasoning. Our approach focuses on teaching models to rigorously reason about action applicability, state transitions, and plan validity using explicit logical inference steps. By developing instruction prompts that guide models through the precise logical reasoning required to determine when actions can be applied in a given state, we enable LLMs to self-correct their planning processes through structured reflection. The framework systematically builds verification skills by decomposing the planning process into explicit reasoning chains about precondition satisfaction, effect application, and invariant preservation. Experimental results on multiple planning domains show that our chain-of-thought reasoning based instruction-tuned models are significantly better at planning, achieving planning accuracy of up to 94% on standard benchmarks, representing a 66% absolute improvement over baseline models. This work bridges the gap between the general reasoning capabilities of LLMs and the logical precision required for automated planning, offering a promising direction for developing better AI planning systems.