Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

📄 arXiv: 2509.12838v2 📥 PDF

作者: Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-16 (更新: 2025-09-30)

备注: Submitted to AROB-ISBC 2026 (Journal Track option)


💡 一句话要点

提出基于LLM的多机器人任务规划框架,解决分布式知识下多目标检索任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 任务规划 大型语言模型 分布式知识 自然语言理解

📋 核心要点

  1. 现有方法难以有效处理多机器人系统中,机器人具备不同情境知识下的复杂指令分解与分配问题。
  2. 利用大型语言模型和空间概念,将自然语言指令分解为子任务,并分配给具备相关知识的机器人。
  3. 实验结果表明,该方法在任务分配成功率上显著优于随机分配和基于常识的分配,并成功应用于实际机器人。

📝 摘要(中文)

本研究旨在解决多机器人系统中,如何高效执行诸如“寻找一个苹果和一个香蕉”或“为实地考察做准备”等指令的问题。这些指令需要搜索多个对象或理解上下文相关的命令。论文提出了一种任务规划框架,该框架利用大型语言模型(LLM)和空间概念,将自然语言指令分解为子任务,并将其分配给多个机器人。每个机器人拥有不同的情境知识,即从用户指定的区域学习到的空间概念。论文设计了一种新颖的少样本提示策略,使LLM能够从模糊的命令中推断出所需的物体,并将其分解为适当的子任务。实验结果表明,该方法在50次任务分配中成功了47次,优于随机分配(28/50)和基于常识的分配(26/50)。此外,使用两个实际的移动机械臂进行的定性评估表明,该框架能够处理包括“为实地考察做准备”等临时类别在内的指令,并成功执行任务分解、分配、顺序规划和执行。

🔬 方法详解

问题定义:论文旨在解决多机器人系统中,如何根据每个机器人所拥有的不同情境知识(例如,特定区域的空间概念),有效地将复杂自然语言指令(例如“找到一个苹果和一个香蕉”)分解为子任务并分配给合适的机器人。现有方法难以处理这种分布式知识下的任务规划问题,尤其是在指令模糊或需要上下文理解时。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和推理能力,将复杂指令分解为更小的、可执行的子任务。同时,结合机器人所拥有的空间概念知识,将这些子任务分配给最适合执行的机器人。这种方法允许机器人利用其局部知识来完成全局任务。

技术框架:该任务规划框架主要包含以下几个阶段:1) 指令接收:接收用户输入的自然语言指令。2) 任务分解:利用LLM和设计的少样本提示策略,将指令分解为一系列子任务,并推断出所需的物体。3) 任务分配:根据每个机器人拥有的空间概念知识,将子任务分配给最合适的机器人。4) 顺序规划:确定子任务的执行顺序。5) 任务执行:机器人按照规划的顺序执行子任务。

关键创新:论文的关键创新在于:1) 提出了一种新颖的少样本提示策略,使LLM能够从模糊的命令中推断出所需的物体,并将其分解为适当的子任务。2) 将LLM与机器人拥有的分布式情境知识相结合,实现了更智能的任务分配。3) 提出了一个完整的任务规划框架,能够处理包括临时类别在内的复杂指令。

关键设计:论文的关键设计包括:1) 少样本提示策略的设计,需要精心选择示例,以引导LLM正确地分解任务。2) 如何将机器人拥有的空间概念知识有效地融入到任务分配过程中,例如,可以使用知识图谱或嵌入向量来表示空间概念,并计算机器人与子任务之间的匹配度。3) 任务分解的粒度控制,需要平衡分解的细致程度和计算复杂度。

📊 实验亮点

实验结果表明,该方法在50次任务分配中成功了47次,显著优于随机分配(28/50)和基于常识的分配(26/50)。这表明该方法能够有效地利用LLM和机器人拥有的分布式知识,实现更智能的任务分配。此外,使用两个实际的移动机械臂进行的定性评估表明,该框架能够处理包括“为实地考察做准备”等临时类别在内的指令,并成功执行任务分解、分配、顺序规划和执行。

🎯 应用场景

该研究成果可应用于仓储物流、家庭服务、灾难救援等领域。在这些场景中,多个机器人需要协同完成复杂的任务,并且每个机器人可能只掌握部分环境信息。该框架能够使机器人更智能地理解人类指令,并高效地完成任务,从而提高工作效率和服务质量。未来,该研究可以扩展到更复杂的任务和环境,例如,涉及多个步骤和多种类型机器人的协同任务。

📄 摘要(原文)

It is crucial to efficiently execute instructions such as "Find an apple and a banana" or "Get ready for a field trip," which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning framework that leverages large language models (LLMs) and spatial concepts to decompose natural language instructions into subtasks and allocate them to multiple robots. We designed a novel few-shot prompting strategy that enables LLMs to infer required objects from ambiguous commands and decompose them into appropriate subtasks. In our experiments, the proposed method achieved 47/50 successful assignments, outperforming random (28/50) and commonsense-based assignment (26/50). Furthermore, we conducted qualitative evaluations using two actual mobile manipulators. The results demonstrated that our framework could handle instructions, including those involving ad hoc categories such as "Get ready for a field trip," by successfully performing task decomposition, assignment, sequential planning, and execution.