One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration
作者: Jinbang Huang, Yixin Xiao, Zhanguang Zhang, Mark Coates, Jianye Hao, Yingxue Zhang
分类: cs.RO
发布日期: 2025-05-23 (更新: 2025-09-25)
备注: 35 pages, 10 figures
💡 一句话要点
PDDLLM:利用单次演示,通过LLM自动推导机器人任务规划领域
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人任务规划 大型语言模型 领域推导 任务和运动规划 物理模拟 自动化规划
📋 核心要点
- 现有机器人任务规划方法依赖手动设计的规划领域,耗时且易出错,限制了长时程任务的可靠性。
- PDDLLM框架利用LLM从单次演示中自动推导符号谓词和动作,无需手动初始化规划领域。
- 实验表明,PDDLLM在多个机器人任务中显著提升了规划成功率,降低了计算成本,并成功部署于真实机器人。
📝 摘要(中文)
预训练大型语言模型(LLMs)在机器人任务规划中展现出潜力,但在长时程问题中难以保证正确性。任务和运动规划(TAMP)通过将符号计划与底层执行相结合来解决这个问题,但它严重依赖于手动设计的规划领域。为了提高长时程规划的可靠性并减少人工干预,我们提出了基于LLM的规划领域推导(PDDLLM)框架,该框架通过结合LLM推理和物理模拟推演,直接从演示轨迹中自动推导出符号谓词和动作。与依赖于部分预定义或语言描述的规划领域的先前领域推理方法不同,PDDLLM无需手动领域初始化即可构建领域,并自动将其与运动规划器集成以生成可执行的计划,从而增强长时程规划的自动化。在九个环境中的1200个任务中,PDDLLM优于六个基于LLM的规划基线,实现了至少20%的更高成功率,降低了token成本,并在多个物理机器人平台上成功部署。
🔬 方法详解
问题定义:论文旨在解决机器人任务规划中,手动设计规划领域的难题。现有方法,特别是TAMP,虽然能保证规划的正确性,但严重依赖人工设计的领域知识,这不仅耗时耗力,而且容易出错,限制了其在复杂环境和长时程任务中的应用。
核心思路:论文的核心思路是利用LLM强大的推理能力,从单次演示轨迹中自动学习并推导出规划所需的符号谓词和动作。通过结合LLM的语义理解和物理模拟的验证,PDDLLM能够构建出适用于特定任务的规划领域,从而避免了人工干预。
技术框架:PDDLLM框架主要包含以下几个阶段:1) 轨迹分析:输入单次演示轨迹,提取关键的状态信息和动作序列。2) LLM推理:利用LLM对轨迹进行分析,生成候选的符号谓词和动作描述。3) 物理模拟验证:通过物理引擎对LLM生成的谓词和动作进行验证,筛选出符合物理规律的有效谓词和动作。4) 领域构建:将验证后的谓词和动作整合,构建完整的规划领域。5) 任务规划与执行:将构建的规划领域与运动规划器结合,生成可执行的机器人任务计划,并在真实环境中执行。
关键创新:PDDLLM最关键的创新在于其完全自动化的规划领域推导过程。与以往需要人工预定义领域知识或依赖语言描述的方法不同,PDDLLM仅需单次演示轨迹即可完成领域构建,极大地降低了人工成本,并提高了规划的自动化程度。
关键设计:论文中未明确给出关键参数设置、损失函数或网络结构的细节。LLM的选择和prompt的设计是影响性能的关键因素,但具体细节未知。物理模拟器的选择和参数设置也会影响验证的准确性。此外,如何有效地将LLM的输出与物理模拟器进行衔接,也是一个重要的设计考量,但论文中没有详细描述。
🖼️ 关键图片
📊 实验亮点
PDDLLM在九个不同环境的1200个任务中进行了评估,相较于六个基于LLM的规划基线,PDDLLM的成功率至少提高了20%,并且降低了token成本。此外,PDDLLM还成功部署在多个物理机器人平台上,验证了其在真实环境中的可行性和有效性。
🎯 应用场景
该研究成果可广泛应用于各种机器人任务规划场景,例如家庭服务机器人、工业自动化机器人、物流配送机器人等。通过自动推导规划领域,可以显著降低机器人部署和维护的成本,提高机器人的自主性和适应性,使其能够更好地完成复杂任务。
📄 摘要(原文)
Pre-trained large language models (LLMs) show promise for robotic task planning but often struggle to guarantee correctness in long-horizon problems. Task and motion planning (TAMP) addresses this by grounding symbolic plans in low-level execution, yet it relies heavily on manually engineered planning domains. To improve long-horizon planning reliability and reduce human intervention, we present Planning Domain Derivation with LLMs (PDDLLM), a framework that automatically induces symbolic predicates and actions directly from demonstration trajectories by combining LLM reasoning with physical simulation roll-outs. Unlike prior domain-inference methods that rely on partially predefined or language descriptions of planning domains, PDDLLM constructs domains without manual domain initialization and automatically integrates them with motion planners to produce executable plans, enhancing long-horizon planning automation. Across 1,200 tasks in nine environments, PDDLLM outperforms six LLM-based planning baselines, achieving at least 20\% higher success rates, reduced token costs, and successful deployment on multiple physical robot platforms.