Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models

📄 arXiv: 2407.12979v2 📥 PDF

作者: Sadegh Mahdavi, Raquel Aoki, Keyi Tang, Yanshuai Cao

分类: cs.LG

发布日期: 2024-07-17 (更新: 2024-11-09)

备注: Neurips 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出利用环境交互的LLM自动PDDL转换与规划方法,无需人工干预。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 规划领域定义语言 自动规划 环境交互 迭代细化 探索行走 PDDL生成

📋 核心要点

  1. 现有方法在将规划问题转换为PDDL时,通常需要人工干预进行修正,这限制了自动化规划的效率和可扩展性。
  2. 该论文提出了一种利用LLM和环境反馈的迭代细化方法,自动生成PDDL领域和问题描述文件,无需人工干预。
  3. 实验结果表明,该方法在10个PDDL环境中实现了平均66%的任务解决率,显著优于GPT-4的内在规划能力(29%)。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言任务中表现出了卓越的性能,但它们在需要结构化推理的规划问题中常常遇到困难。为了解决这个局限性,将规划问题转换为规划领域定义语言(PDDL)已被提出作为一种潜在的解决方案,从而可以使用自动规划器。然而,生成准确的PDDL文件通常需要人工输入或校正,这可能既耗时又昂贵。在本文中,我们提出了一种新颖的方法,该方法利用LLM和环境反馈来自动生成PDDL领域和问题描述文件,而无需人工干预。我们的方法引入了一个迭代细化过程,该过程生成多个问题PDDL候选,并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程,我们开发了一个探索行走(EW)指标,该指标为LLM提供丰富的反馈信号以更新PDDL文件。我们在10个PDDL环境中评估了我们的方法。与GPT-4使用思维链提示的内在规划的29%的解决率相比,我们实现了平均66%的任务解决率。我们的工作实现了使用LLM和环境反馈自动建模规划环境,消除了PDDL翻译过程中对人工干预的需求,并为更具挑战性问题中更可靠的LLM代理铺平了道路。我们的代码可在https://github.com/BorealisAI/llm-pddl-planning获得。

🔬 方法详解

问题定义:论文旨在解决自动将规划问题转换为PDDL的问题,现有方法依赖人工干预,成本高昂且耗时。现有方法的痛点在于无法自动生成准确的PDDL文件,需要人工进行调试和修正,阻碍了LLM在复杂规划任务中的应用。

核心思路:核心思路是利用LLM生成PDDL文件,并通过与环境的交互获取反馈,迭代地改进PDDL的领域和问题描述。通过环境反馈来指导LLM进行PDDL的修正,从而实现自动化的PDDL生成。这种方法避免了人工干预,提高了效率和可扩展性。

技术框架:整体框架包含以下几个主要阶段:1) LLM生成初始的PDDL领域和问题描述文件;2) 使用自动规划器基于生成的PDDL文件进行规划;3) 与环境交互执行规划结果,并获取环境反馈;4) 使用探索行走(EW)指标评估环境反馈,并生成反馈信号;5) LLM根据反馈信号更新PDDL文件,重复步骤2-5,直到满足停止条件。

关键创新:最重要的技术创新点在于利用环境交互来指导LLM进行PDDL的自动生成和修正。与现有方法相比,该方法无需人工干预,而是通过环境反馈来驱动PDDL的迭代优化。探索行走(EW)指标是另一个关键创新,它提供了一种量化环境反馈的方式,使得LLM可以有效地利用环境信息来改进PDDL文件。

关键设计:探索行走(EW)指标的设计是关键。EW指标用于评估规划结果在环境中的执行情况,并生成反馈信号。具体来说,EW指标会评估规划执行过程中状态的变化,以及是否达到了目标状态。LLM使用这些反馈信号来调整PDDL文件中的动作定义和状态描述。论文中没有明确给出具体的参数设置或损失函数,但强调了迭代细化过程的重要性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在10个PDDL环境中实现了平均66%的任务解决率,显著优于GPT-4使用思维链提示的内在规划(29%)。这表明通过环境交互和迭代细化,LLM可以有效地学习和生成准确的PDDL文件,从而提高规划性能。该方法在无需人工干预的情况下,实现了接近甚至超过人工设计的PDDL的性能。

🎯 应用场景

该研究成果可应用于机器人、游戏AI、自动化任务规划等领域。通过自动生成PDDL文件,可以降低使用自动规划器的门槛,使得LLM能够更有效地解决复杂的规划问题。未来,该技术有望应用于更广泛的领域,例如智能家居、自动驾驶等。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable performance in various natural language tasks, but they often struggle with planning problems that require structured reasoning. To address this limitation, the conversion of planning problems into the Planning Domain Definition Language (PDDL) has been proposed as a potential solution, enabling the use of automated planners. However, generating accurate PDDL files typically demands human inputs or correction, which can be time-consuming and costly. In this paper, we propose a novel approach that leverages LLMs and environment feedback to automatically generate PDDL domain and problem description files without the need for human intervention. Our method introduces an iterative refinement process that generates multiple problem PDDL candidates and progressively refines the domain PDDL based on feedback obtained from interacting with the environment. To guide the refinement process, we develop an Exploration Walk (EW) metric, which provides rich feedback signals for LLMs to update the PDDL file. We evaluate our approach on $10$ PDDL environments. We achieve an average task solve rate of 66% compared to a 29% solve rate by GPT-4's intrinsic planning with chain-of-thought prompting. Our work enables the automated modeling of planning environments using LLMs and environment feedback, eliminating the need for human intervention in the PDDL translation process and paving the way for more reliable LLM agents in challenging problems. Our code is available at https://github.com/BorealisAI/llm-pddl-planning