H-AIM: Orchestrating LLMs, PDDL, and Behavior Trees for Hierarchical Multi-Robot Planning

📄 arXiv: 2601.11063v1 📥 PDF

作者: Haishan Zeng, Peng Li

分类: cs.RO, cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2026-01-16


💡 一句话要点

提出H-AIM框架,结合LLM、PDDL和行为树实现分层多机器人规划。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多机器人规划 大型语言模型 规划领域定义语言 行为树 具身智能

📋 核心要点

  1. 现有方法在处理长时程任务和动态多机器人协调方面存在局限性,难以实现异构机器人团队的高效规划。
  2. H-AIM框架结合LLM的指令解析能力、经典规划器的搜索能力和行为树的反应式控制,实现分层多机器人规划。
  3. 实验结果表明,H-AIM在MACE-THOR基准数据集上显著提升了任务成功率和目标条件召回率,优于现有方法。

📝 摘要(中文)

本文提出了一种名为分层自主智能多机器人规划(H-AIM)的新型具身多机器人任务规划框架,旨在解决异构机器人团队执行高层指令的长时程任务这一关键挑战。该框架采用三阶段级联架构:首先,利用大型语言模型(LLM)解析指令并生成规划领域定义语言(PDDL)问题描述,将命令转化为形式化规划问题;其次,结合LLM的语义推理能力与经典规划器的搜索能力,生成优化的动作序列;最后,将生成的计划编译成行为树以实现反应式控制。该框架通过共享黑板机制支持动态规模的异构机器人团队进行通信和状态同步。通过MACE-THOR基准数据集的实验验证,H-AIM显著提升了任务成功率和目标条件召回率。

🔬 方法详解

问题定义:论文旨在解决异构机器人团队如何根据高层指令执行长时程任务的问题。现有方法,如直接使用LLM进行规划,在长期推理和多机器人动态协调方面存在不足,难以保证任务的成功率和效率。此外,将自然语言指令转化为机器人可执行的动作序列也是一个挑战。

核心思路:论文的核心思路是将复杂的多机器人任务规划问题分解为三个阶段:指令解析与问题形式化、动作序列规划和反应式控制。通过结合LLM的语义理解能力、经典规划器的优化搜索能力和行为树的实时反应能力,实现高效、可靠的多机器人任务规划。这种分层结构能够有效利用不同技术的优势,弥补彼此的不足。

技术框架:H-AIM框架包含三个主要阶段: 1. LLM指令解析与PDDL生成:利用LLM解析用户指令,提取关键信息,并将其转化为PDDL问题描述,包括初始状态、目标状态和可用动作。 2. 经典规划器动作序列规划:使用经典规划器(如Fast Downward)在PDDL问题描述上进行搜索,生成优化的动作序列。LLM的语义信息可以指导规划器进行更有效的搜索。 3. 行为树编译与反应式控制:将生成的动作序列编译成行为树,实现机器人的反应式控制。行为树能够处理环境变化和意外情况,保证任务的鲁棒性。 框架还包含一个共享黑板机制,用于多机器人之间的通信和状态同步。

关键创新:H-AIM的关键创新在于将LLM、PDDL和行为树有机结合,形成一个完整的分层多机器人规划框架。与直接使用LLM进行规划的方法相比,H-AIM能够更好地处理长时程任务和多机器人协调问题。与传统的基于规划的方法相比,H-AIM能够利用LLM的语义理解能力,更好地理解用户指令并生成合适的PDDL问题描述。

关键设计: * LLM Prompt Engineering:设计合适的Prompt,引导LLM生成准确的PDDL问题描述。 * PDDL Action Definition:定义清晰、明确的机器人动作,保证规划器的有效搜索。 * Behavior Tree Structure:设计合理的行为树结构,实现机器人的反应式控制和错误处理。 * Blackboard Communication Protocol:定义高效的黑板通信协议,保证多机器人之间的信息同步。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,H-AIM在MACE-THOR基准数据集上取得了显著的性能提升。与最强的基线方法LaMMA-P相比,H-AIM的任务成功率从12%提高到55%,目标条件召回率从32%提高到72%。这些结果表明,H-AIM框架能够有效地解决多机器人任务规划问题,并显著提高机器人的自主能力。

🎯 应用场景

H-AIM框架可应用于各种需要多机器人协同完成复杂任务的场景,如智能家居、仓储物流、灾难救援和自动化工厂。该框架能够根据用户的高层指令,自动规划机器人的动作序列,并实现机器人的自主控制,从而提高任务效率和降低人工成本。未来,该框架还可以扩展到更复杂的环境和任务,并与其他技术(如强化学习)相结合,进一步提高机器人的智能水平。

📄 摘要(原文)

In embodied artificial intelligence, enabling heterogeneous robot teams to execute long-horizon tasks from high-level instructions remains a critical challenge. While large language models (LLMs) show promise in instruction parsing and preliminary planning, they exhibit limitations in long-term reasoning and dynamic multi-robot coordination. We propose Hierarchical Autonomous Intelligent Multi-Robot Planning(H-AIM), a novel embodied multi-robot task planning framework that addresses these issues through a three-stage cascaded architecture: 1) It leverages an LLM to parse instructions and generate Planning Domain Definition Language (PDDL) problem descriptions, thereby transforming commands into formal planning problems; 2) It combines the semantic reasoning of LLMs with the search capabilities of a classical planner to produce optimized action sequences; 3) It compiles the resulting plan into behavior trees for reactive control. The framework supports dynamically sized heterogeneous robot teams via a shared blackboard mechanism for communication and state synchronization. To validate our approach, we introduce the MACE-THOR benchmark dataset, comprising 42 complex tasks across 8 distinct household layouts. Experimental results demonstrate that H-AIM achieves a remarkable performance improvement, elevating the task success rate from 12% to 55% and boosting the goal condition recall from 32% to 72% against the strongest baseline, LaMMA-P.