Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning
作者: Tomoya Kawabe, Rin Takano
分类: cs.RO, cs.AI, cs.MA
发布日期: 2026-02-28
💡 一句话要点
提出基于层级LLM的多智能体框架,通过提示优化解决多机器人任务规划问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多机器人任务规划 大型语言模型 层级规划 提示优化 PDDL规划 多智能体系统 自然语言指令
📋 核心要点
- 现有方法难以处理多机器人任务规划中自然语言指令的模糊性和长期性,传统 PDDL 规划器能力有限,LLM 易产生幻觉。
- 论文提出层级多智能体框架,上层 LLM 分解任务并分配给下层智能体,下层智能体生成 PDDL 问题,由经典规划器求解。
- 实验表明,该方法在 MAT-THOR 基准测试中显著优于现有技术,在不同难度任务上成功率均有提升。
📝 摘要(中文)
多机器人任务规划需要将自然语言指令分解为异构机器人团队可执行的动作。传统的规划领域定义语言(PDDL)规划器提供严格的保证,但难以处理模糊或长期的任务,而大型语言模型(LLM)可以解释指令并提出计划,但可能产生幻觉或不可行的动作。我们提出了一种基于层级多智能体LLM的规划器,具有提示优化功能:上层分解任务并将其分配给下层智能体,下层智能体生成由经典规划器解决的PDDL问题。当计划失败时,系统应用受TextGrad启发的文本梯度更新来优化每个智能体的提示,从而提高规划准确性。此外,元提示在同一层内的智能体之间学习和共享,从而实现多智能体环境中的高效提示优化。在MAT-THOR基准测试中,我们的规划器在复合任务、复杂任务和模糊任务上的成功率分别达到0.95、0.84和0.60,分别比之前的最先进的LaMMA-P提高了2、7和15个百分点。一项消融研究表明,层级结构、提示优化和元提示共享对整体成功率的贡献分别约为+59、+37和+4个百分点。
🔬 方法详解
问题定义:论文旨在解决多机器人任务规划中,如何有效利用自然语言指令,并将其转化为可执行的机器人动作序列的问题。现有方法,如纯 PDDL 规划器,难以处理复杂、模糊的自然语言指令;而直接使用 LLM 生成计划,则容易出现幻觉和不可行动作,缺乏可靠性。
核心思路:论文的核心思路是结合 LLM 的理解能力和 PDDL 规划器的可靠性,构建一个层级化的多智能体系统。上层 LLM 负责任务分解和分配,下层智能体负责生成具体的 PDDL 问题,最终由 PDDL 规划器生成可执行的计划。通过这种方式,既能利用 LLM 的灵活性,又能保证计划的正确性。
技术框架:整体框架包含以下几个主要模块:1) 任务分解层:上层 LLM 接收自然语言指令,将其分解为多个子任务,并分配给不同的下层智能体。2) PDDL 问题生成层:下层智能体根据分配到的子任务,生成对应的 PDDL 问题描述。3) PDDL 规划器:使用经典的 PDDL 规划器,如 Fast Downward,求解 PDDL 问题,生成机器人动作序列。4) 提示优化模块:当计划失败时,利用 TextGrad 思想,通过文本梯度更新优化 LLM 的提示,提高规划准确性。5) 元提示学习模块:在同一层内的智能体之间共享元提示,加速提示优化过程。
关键创新:论文的关键创新在于:1) 层级化的多智能体架构:将任务分解和规划过程分解为多个层次,充分利用 LLM 和 PDDL 规划器的优势。2) 基于文本梯度的提示优化:通过优化 LLM 的提示,提高其生成 PDDL 问题的准确性。3) 元提示共享:加速多智能体环境下的提示优化过程。
关键设计:1) 提示工程:精心设计 LLM 的提示,使其能够准确理解自然语言指令,并生成合适的 PDDL 问题。2) 文本梯度更新:使用 TextGrad 算法,根据计划的成功与否,调整 LLM 提示中的关键词。3) 元提示学习:通过学习不同任务之间的共性,生成元提示,并在同一层内的智能体之间共享。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在 MAT-THOR 基准测试中取得了显著的性能提升。在复合任务、复杂任务和模糊任务上的成功率分别达到 0.95、0.84 和 0.60,分别比之前的最先进的 LaMMA-P 提高了 2、7 和 15 个百分点。消融实验表明,层级结构、提示优化和元提示共享对整体成功率的贡献分别约为 +59、+37 和 +4 个百分点。
🎯 应用场景
该研究成果可应用于各种多机器人协作场景,例如家庭服务机器人、仓储物流机器人、搜索救援机器人等。通过自然语言指令,用户可以方便地指挥多个机器人完成复杂的任务。该方法还可以扩展到其他领域,例如智能制造、自动驾驶等,具有广阔的应用前景。
📄 摘要(原文)
Multi-robot task planning requires decomposing natural-language instructions into executable actions for heterogeneous robot teams. Conventional Planning Domain Definition Language (PDDL) planners provide rigorous guarantees but struggle to handle ambiguous or long-horizon missions, while large language models (LLMs) can interpret instructions and propose plans but may hallucinate or produce infeasible actions. We present a hierarchical multi-agent LLM-based planner with prompt optimization: an upper layer decomposes tasks and assigns them to lower-layer agents, which generate PDDL problems solved by a classical planner. When plans fail, the system applies TextGrad-inspired textual-gradient updates to optimize each agent's prompt and thereby improve planning accuracy. In addition, meta-prompts are learned and shared across agents within the same layer, enabling efficient prompt optimization in multi-agent settings. On the MAT-THOR benchmark, our planner achieves success rates of 0.95 on compound tasks, 0.84 on complex tasks, and 0.60 on vague tasks, improving over the previous state-of-the-art LaMMA-P by 2, 7, and 15 percentage points respectively. An ablation study shows that the hierarchical structure, prompt optimization, and meta-prompt sharing contribute roughly +59, +37, and +4 percentage points to the overall success rate.