An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs

作者: Kaustubh Vyas, Damien Graux, Sébastien Montella, Pavlos Vougiouklis, Ruofei Lai, Keshuang Li, Yang Ren, Jeff Z. Pan

分类: cs.AI, cs.CL

发布日期: 2025-02-27

备注: Under review

💡 一句话要点

评估LLM在PDDL理解与生成中的能力，揭示其在自动规划任务中的潜力和局限

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 规划领域定义语言 自动规划 人工智能 零样本学习

📋 核心要点

现有自动规划方法在复杂场景中面临挑战，需要更强大的知识表示和推理能力。
该研究探索LLM在理解和生成PDDL方面的能力，利用LLM的code generation和chain-of-thought推理能力。
通过对多个LLM的广泛评估，揭示了它们在PDDL处理方面的优势和不足，为未来研究提供指导。

📝 摘要（中文）

本研究评估了大型语言模型（LLM）在理解和生成规划领域定义语言（PDDL）方面的潜力，PDDL是人工智能规划中的关键表示。我们对来自7个主要LLM系列的20个不同模型（包括商业和开源模型）进行了广泛的分析。我们的综合评估揭示了LLM在零样本条件下解析、生成和推理PDDL的能力。研究结果表明，虽然一些模型在处理PDDL方面表现出显著的有效性，但另一些模型在需要细致规划知识的更复杂场景中存在局限性。这些结果突出了LLM在形式规划任务中的前景和当前局限性，为它们的应用提供了见解，并指导了人工智能驱动的规划范式中的未来工作。

🔬 方法详解

问题定义：论文旨在评估现有大型语言模型（LLM）在理解和生成规划领域定义语言（PDDL）方面的能力。PDDL是形式化规划领域中用于描述规划问题和解决方案的标准语言。现有方法，即传统的规划器，在处理复杂、大规模的规划问题时，往往面临计算复杂度高、领域知识获取困难等挑战。LLM的出现为解决这些问题提供了一种新的思路，但其在PDDL方面的能力尚未得到充分评估。

核心思路：论文的核心思路是利用LLM强大的语言理解和生成能力，直接让LLM处理PDDL代码，从而实现自动规划。这种方法避免了传统规划器中复杂的搜索算法和领域知识编码过程，而是依赖于LLM从大量数据中学习到的通用知识和推理能力。通过评估LLM在解析、生成和推理PDDL方面的表现，可以了解LLM在自动规划领域的潜力。

技术框架：该研究的技术框架主要包括以下几个步骤：1）选择具有代表性的LLM模型，涵盖商业和开源模型；2）设计一系列PDDL测试用例，包括不同复杂度和类型的规划问题；3）使用LLM对PDDL测试用例进行解析、生成和推理；4）评估LLM的性能，分析其优势和不足。没有明确的训练或微调过程，主要关注LLM的零样本能力。

关键创新：该研究的关键创新在于首次对多种LLM在PDDL处理方面的能力进行了全面的评估。之前的研究主要集中在特定LLM或特定规划问题上，缺乏系统性和广泛性。该研究通过对20个不同模型的评估，揭示了LLM在PDDL处理方面的普遍规律和差异，为未来的研究提供了重要的参考。

关键设计：研究中关键的设计包括：1）PDDL测试用例的设计，需要覆盖不同类型的规划问题，例如状态空间搜索、计划空间搜索等；2）评估指标的选择，需要能够反映LLM在解析、生成和推理PDDL方面的能力，例如准确率、召回率、F1值等；3）实验设置，需要保证实验的公平性和可重复性，例如统一的输入格式、相同的计算资源等。论文中没有明确提及具体的参数设置或损失函数，因为主要关注的是LLM的零样本能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，部分LLM在处理简单的PDDL问题时表现出较好的性能，能够正确解析和生成PDDL代码。然而，在处理更复杂的规划问题时，LLM的性能显著下降，表明其在推理和规划能力方面仍存在局限性。不同LLM之间的性能差异较大，表明模型架构和训练数据对PDDL处理能力有重要影响。

🎯 应用场景

该研究成果可应用于自动化任务规划、机器人控制、游戏AI等领域。通过利用LLM的PDDL处理能力，可以实现更智能、更灵活的自动化系统，减少人工干预，提高效率。未来，可以将LLM与传统规划器相结合，构建混合规划系统，充分发挥各自的优势。

📄 摘要（原文）

In recent advancements, large language models (LLMs) have exhibited proficiency in code generation and chain-of-thought reasoning, laying the groundwork for tackling automatic formal planning tasks. This study evaluates the potential of LLMs to understand and generate Planning Domain Definition Language (PDDL), an essential representation in artificial intelligence planning. We conduct an extensive analysis across 20 distinct models spanning 7 major LLM families, both commercial and open-source. Our comprehensive evaluation sheds light on the zero-shot LLM capabilities of parsing, generating, and reasoning with PDDL. Our findings indicate that while some models demonstrate notable effectiveness in handling PDDL, others pose limitations in more complex scenarios requiring nuanced planning knowledge. These results highlight the promise and current limitations of LLMs in formal planning tasks, offering insights into their application and guiding future efforts in AI-driven planning paradigms.

An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理