Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

作者: Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-16 (更新: 2025-09-30)

备注: Submitted to AROB-ISBC 2026 (Journal Track option)

💡 一句话要点

提出基于LLM的多机器人任务规划框架，解决分布式知识下的多目标检索问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 任务规划 大型语言模型 少样本学习 分布式知识

📋 核心要点

现有方法难以有效处理多机器人协作中，各机器人具备不同局部知识的任务分配问题。
利用LLM进行任务分解和机器人分配，结合少样本提示策略处理模糊指令，提升任务规划的灵活性。
实验结果表明，该方法在任务分配成功率上显著优于随机和基于常识的方法，并验证了其在实际机器人上的可行性。

📝 摘要（中文）

本研究旨在解决多机器人系统中，在每个机器人拥有不同的本地知识的情况下，如何高效地执行诸如“找到一个苹果和一个香蕉”或“为郊游做好准备”等指令。我们提出了一种任务规划框架，该框架利用大型语言模型（LLM）和空间概念，将自然语言指令分解为子任务，并将它们分配给多个机器人。我们设计了一种新颖的少样本提示策略，使LLM能够从模糊的命令中推断出所需的物体，并将其分解为适当的子任务。实验结果表明，该方法在50次任务分配中成功了47次，优于随机分配（28/50）和基于常识的分配（26/50）。此外，我们使用两个实际的移动操作机器人进行了定性评估，结果表明该框架能够处理包括“为郊游做好准备”等临时类别在内的指令，并成功执行任务分解、分配、顺序规划和执行。

🔬 方法详解

问题定义：论文旨在解决多机器人系统中，每个机器人拥有不同的局部知识（例如，只知道自己负责区域内的物体信息）时，如何高效地完成需要检索多个物体的复杂任务。现有方法在处理这种分布式知识和模糊指令时存在不足，难以进行有效的任务分解和机器人分配。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大语义理解和推理能力，将自然语言指令分解为多个子任务，并根据每个机器人的局部知识，将子任务分配给最合适的机器人。通过少样本提示（few-shot prompting）策略，LLM能够理解模糊指令并推断出用户的真实意图。

技术框架：该任务规划框架主要包含以下几个阶段：1) 指令接收：接收用户输入的自然语言指令。2) 任务分解：利用LLM将指令分解为多个子任务，例如“找到苹果”和“找到香蕉”。3) 机器人分配：根据每个机器人的局部知识和子任务的需求，将子任务分配给最合适的机器人。4) 顺序规划：确定每个机器人执行子任务的顺序。5) 任务执行：机器人按照规划的顺序执行子任务。

关键创新：该论文的关键创新在于：1) 基于LLM的任务分解和机器人分配：利用LLM的语义理解能力，自动将复杂任务分解为多个子任务，并根据机器人的局部知识进行分配。2) 少样本提示策略：通过少量的示例，使LLM能够理解模糊指令并推断出用户的真实意图。

关键设计：论文中关键的设计包括：1) LLM的选择：选择具有强大语义理解和推理能力的LLM，例如GPT-3或类似的模型。2) 少样本提示示例的设计：精心设计少样本提示示例，以引导LLM正确理解指令并进行任务分解。3) 机器人知识表示：采用合适的知识表示方法，例如知识图谱，来表示每个机器人的局部知识。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在50次任务分配中成功了47次，显著优于随机分配（28/50）和基于常识的分配（26/50）。此外，通过在实际移动操作机器人上的定性评估，验证了该框架能够处理包括“为郊游做好准备”等临时类别在内的指令，并成功执行任务分解、分配、顺序规划和执行。

🎯 应用场景

该研究成果可应用于仓储物流、家庭服务、灾害救援等领域。在仓储物流中，多个机器人可以协同完成拣货任务，提高效率。在家庭服务中，机器人可以根据用户的指令完成各种家务。在灾害救援中，机器人可以协同搜索和救援幸存者。该研究为多机器人协作提供了一种新的解决方案，具有广阔的应用前景。

📄 摘要（原文）

It is crucial to efficiently execute instructions such as "Find an apple and a banana" or "Get ready for a field trip," which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning framework that leverages large language models (LLMs) and spatial concepts to decompose natural language instructions into subtasks and allocate them to multiple robots. We designed a novel few-shot prompting strategy that enables LLMs to infer required objects from ambiguous commands and decompose them into appropriate subtasks. In our experiments, the proposed method achieved 47/50 successful assignments, outperforming random (28/50) and commonsense-based assignment (26/50). Furthermore, we conducted qualitative evaluations using two actual mobile manipulators. The results demonstrated that our framework could handle instructions, including those involving ad hoc categories such as "Get ready for a field trip," by successfully performing task decomposition, assignment, sequential planning, and execution.

Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理