Large Language Models as Planning Domain Generators

📄 arXiv: 2405.06650v1 📥 PDF

作者: James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

分类: cs.CL, cs.AI

发布日期: 2024-04-02

备注: Published at ICAPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出利用大型语言模型自动生成规划领域模型以简化AI规划

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动生成 规划领域 自然语言处理 AI规划 模型评估 智能系统

📋 核心要点

  1. 核心问题:现有的规划领域模型生成依赖人工,效率低且难以扩展,限制了AI规划的应用。
  2. 方法要点:本文提出利用大型语言模型自动生成规划领域模型,并引入自动评估框架以验证生成的有效性。
  3. 实验或效果:对7种大型语言模型的实证分析显示,参数量大的模型在生成规划领域方面表现出中等的能力。

📝 摘要(中文)

开发领域模型是AI规划中仍需人工干预的少数环节之一。为了提高规划的可及性,自动化领域模型生成过程显得尤为重要。本文探讨了大型语言模型(LLMs)是否能够从简单的文本描述中生成规划领域模型。我们引入了一种框架,通过比较领域实例的计划集来自动评估LLM生成的领域。最后,我们对7种大型语言模型进行了实证分析,涵盖9个不同的规划领域和三类自然语言领域描述。结果表明,尤其是参数量较大的LLMs在从自然语言描述生成正确的规划领域方面表现出中等水平的能力。我们的代码可在https://github.com/IBM/NL2PDDL获取。

🔬 方法详解

问题定义:本文旨在解决AI规划中领域模型生成的人工依赖问题,现有方法效率低且难以适应多变的需求。

核心思路:通过利用大型语言模型(LLMs)从自然语言描述中自动生成规划领域模型,减少人工干预,提高生成效率。

技术框架:整体架构包括三个主要模块:自然语言输入处理、LLM生成规划领域模型、自动评估生成模型的有效性。

关键创新:引入了一种新的自动评估框架,通过比较生成领域实例的计划集来验证模型的有效性,这是与现有方法的本质区别。

关键设计:在模型生成过程中,采用了高参数量的LLMs,并设计了特定的损失函数以优化生成质量,同时确保生成的领域模型能够适应多种自然语言描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,参数量较大的大型语言模型在生成规划领域模型方面表现出中等的能力,尤其在处理复杂的自然语言描述时,生成的模型能够有效支持规划任务,提升了生成的准确性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化决策系统和机器人规划等。通过自动生成领域模型,可以显著降低人工成本,提高系统的灵活性和适应性,推动AI规划技术的广泛应用。未来,该方法可能会影响更多领域的智能系统设计与实现。

📄 摘要(原文)

Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.