Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

作者: Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-16 (更新: 2025-09-30)

备注: Submitted to AROB-ISBC 2026 (Journal Track option)

💡 一句话要点

提出基于LLM的多机器人任务规划框架，解决分布式知识下多目标检索任务

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 任务规划 大型语言模型 分布式知识 自然语言理解

📋 核心要点

现有方法难以有效处理多机器人系统中，机器人具备不同情境知识下的复杂指令分解与分配问题。
利用大型语言模型和空间概念，将自然语言指令分解为子任务，并分配给具备相关知识的机器人。
实验结果表明，该方法在任务分配成功率上显著优于随机分配和基于常识的分配，并成功应用于实际机器人。

📝 摘要（中文）

本研究旨在解决多机器人系统中，如何高效执行诸如“寻找一个苹果和一个香蕉”或“为实地考察做准备”等指令的问题。这些指令需要搜索多个对象或理解上下文相关的命令。论文提出了一种任务规划框架，该框架利用大型语言模型（LLM）和空间概念，将自然语言指令分解为子任务，并将其分配给多个机器人。每个机器人拥有不同的情境知识，即从用户指定的区域学习到的空间概念。论文设计了一种新颖的少样本提示策略，使LLM能够从模糊的命令中推断出所需的物体，并将其分解为适当的子任务。实验结果表明，该方法在50次任务分配中成功了47次，优于随机分配（28/50）和基于常识的分配（26/50）。此外，使用两个实际的移动机械臂进行的定性评估表明，该框架能够处理包括“为实地考察做准备”等临时类别在内的指令，并成功执行任务分解、分配、顺序规划和执行。

🔬 方法详解

问题定义：论文旨在解决多机器人系统中，如何根据每个机器人所拥有的不同情境知识（例如，特定区域的空间概念），有效地将复杂自然语言指令（例如“找到一个苹果和一个香蕉”）分解为子任务并分配给合适的机器人。现有方法难以处理这种分布式知识下的任务规划问题，尤其是在指令模糊或需要上下文理解时。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大自然语言理解和推理能力，将复杂指令分解为更小的、可执行的子任务。同时，结合机器人所拥有的空间概念知识，将这些子任务分配给最适合执行的机器人。这种方法允许机器人利用其局部知识来完成全局任务。

技术框架：该任务规划框架主要包含以下几个阶段：1) 指令接收：接收用户输入的自然语言指令。2) 任务分解：利用LLM和设计的少样本提示策略，将指令分解为一系列子任务，并推断出所需的物体。3) 任务分配：根据每个机器人拥有的空间概念知识，将子任务分配给最合适的机器人。4) 顺序规划：确定子任务的执行顺序。5) 任务执行：机器人按照规划的顺序执行子任务。

关键创新：论文的关键创新在于：1) 提出了一种新颖的少样本提示策略，使LLM能够从模糊的命令中推断出所需的物体，并将其分解为适当的子任务。2) 将LLM与机器人拥有的分布式情境知识相结合，实现了更智能的任务分配。3) 提出了一个完整的任务规划框架，能够处理包括临时类别在内的复杂指令。

关键设计：论文的关键设计包括：1) 少样本提示策略的设计，需要精心选择示例，以引导LLM正确地分解任务。2) 如何将机器人拥有的空间概念知识有效地融入到任务分配过程中，例如，可以使用知识图谱或嵌入向量来表示空间概念，并计算机器人与子任务之间的匹配度。3) 任务分解的粒度控制，需要平衡分解的细致程度和计算复杂度。

📊 实验亮点

实验结果表明，该方法在50次任务分配中成功了47次，显著优于随机分配（28/50）和基于常识的分配（26/50）。这表明该方法能够有效地利用LLM和机器人拥有的分布式知识，实现更智能的任务分配。此外，使用两个实际的移动机械臂进行的定性评估表明，该框架能够处理包括“为实地考察做准备”等临时类别在内的指令，并成功执行任务分解、分配、顺序规划和执行。

🎯 应用场景

该研究成果可应用于仓储物流、家庭服务、灾难救援等领域。在这些场景中，多个机器人需要协同完成复杂的任务，并且每个机器人可能只掌握部分环境信息。该框架能够使机器人更智能地理解人类指令，并高效地完成任务，从而提高工作效率和服务质量。未来，该研究可以扩展到更复杂的任务和环境，例如，涉及多个步骤和多种类型机器人的协同任务。

📄 摘要（原文）

It is crucial to efficiently execute instructions such as "Find an apple and a banana" or "Get ready for a field trip," which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning framework that leverages large language models (LLMs) and spatial concepts to decompose natural language instructions into subtasks and allocate them to multiple robots. We designed a novel few-shot prompting strategy that enables LLMs to infer required objects from ambiguous commands and decompose them into appropriate subtasks. In our experiments, the proposed method achieved 47/50 successful assignments, outperforming random (28/50) and commonsense-based assignment (26/50). Furthermore, we conducted qualitative evaluations using two actual mobile manipulators. The results demonstrated that our framework could handle instructions, including those involving ad hoc categories such as "Get ready for a field trip," by successfully performing task decomposition, assignment, sequential planning, and execution.

Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册