Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

📄 arXiv: 2509.12838v2 📥 PDF

作者: Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-16 (更新: 2025-09-30)

备注: Submitted to AROB-ISBC 2026 (Journal Track option)


💡 一句话要点

提出基于LLM的多机器人任务规划框架,解决分布式知识下的多目标检索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 任务规划 大型语言模型 少样本学习 分布式知识

📋 核心要点

  1. 现有方法难以有效处理多机器人协作中,各机器人具备不同局部知识的任务分配问题。
  2. 利用LLM进行任务分解和机器人分配,结合少样本提示策略处理模糊指令,提升任务规划的灵活性。
  3. 实验结果表明,该方法在任务分配成功率上显著优于随机和基于常识的方法,并验证了其在实际机器人上的可行性。

📝 摘要(中文)

本研究旨在解决多机器人系统中,在每个机器人拥有不同的本地知识的情况下,如何高效地执行诸如“找到一个苹果和一个香蕉”或“为郊游做好准备”等指令。我们提出了一种任务规划框架,该框架利用大型语言模型(LLM)和空间概念,将自然语言指令分解为子任务,并将它们分配给多个机器人。我们设计了一种新颖的少样本提示策略,使LLM能够从模糊的命令中推断出所需的物体,并将其分解为适当的子任务。实验结果表明,该方法在50次任务分配中成功了47次,优于随机分配(28/50)和基于常识的分配(26/50)。此外,我们使用两个实际的移动操作机器人进行了定性评估,结果表明该框架能够处理包括“为郊游做好准备”等临时类别在内的指令,并成功执行任务分解、分配、顺序规划和执行。

🔬 方法详解

问题定义:论文旨在解决多机器人系统中,每个机器人拥有不同的局部知识(例如,只知道自己负责区域内的物体信息)时,如何高效地完成需要检索多个物体的复杂任务。现有方法在处理这种分布式知识和模糊指令时存在不足,难以进行有效的任务分解和机器人分配。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和推理能力,将自然语言指令分解为多个子任务,并根据每个机器人的局部知识,将子任务分配给最合适的机器人。通过少样本提示(few-shot prompting)策略,LLM能够理解模糊指令并推断出用户的真实意图。

技术框架:该任务规划框架主要包含以下几个阶段:1) 指令接收:接收用户输入的自然语言指令。2) 任务分解:利用LLM将指令分解为多个子任务,例如“找到苹果”和“找到香蕉”。3) 机器人分配:根据每个机器人的局部知识和子任务的需求,将子任务分配给最合适的机器人。4) 顺序规划:确定每个机器人执行子任务的顺序。5) 任务执行:机器人按照规划的顺序执行子任务。

关键创新:该论文的关键创新在于:1) 基于LLM的任务分解和机器人分配:利用LLM的语义理解能力,自动将复杂任务分解为多个子任务,并根据机器人的局部知识进行分配。2) 少样本提示策略:通过少量的示例,使LLM能够理解模糊指令并推断出用户的真实意图。

关键设计:论文中关键的设计包括:1) LLM的选择:选择具有强大语义理解和推理能力的LLM,例如GPT-3或类似的模型。2) 少样本提示示例的设计:精心设计少样本提示示例,以引导LLM正确理解指令并进行任务分解。3) 机器人知识表示:采用合适的知识表示方法,例如知识图谱,来表示每个机器人的局部知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在50次任务分配中成功了47次,显著优于随机分配(28/50)和基于常识的分配(26/50)。此外,通过在实际移动操作机器人上的定性评估,验证了该框架能够处理包括“为郊游做好准备”等临时类别在内的指令,并成功执行任务分解、分配、顺序规划和执行。

🎯 应用场景

该研究成果可应用于仓储物流、家庭服务、灾害救援等领域。在仓储物流中,多个机器人可以协同完成拣货任务,提高效率。在家庭服务中,机器人可以根据用户的指令完成各种家务。在灾害救援中,机器人可以协同搜索和救援幸存者。该研究为多机器人协作提供了一种新的解决方案,具有广阔的应用前景。

📄 摘要(原文)

It is crucial to efficiently execute instructions such as "Find an apple and a banana" or "Get ready for a field trip," which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning framework that leverages large language models (LLMs) and spatial concepts to decompose natural language instructions into subtasks and allocate them to multiple robots. We designed a novel few-shot prompting strategy that enables LLMs to infer required objects from ambiguous commands and decompose them into appropriate subtasks. In our experiments, the proposed method achieved 47/50 successful assignments, outperforming random (28/50) and commonsense-based assignment (26/50). Furthermore, we conducted qualitative evaluations using two actual mobile manipulators. The results demonstrated that our framework could handle instructions, including those involving ad hoc categories such as "Get ready for a field trip," by successfully performing task decomposition, assignment, sequential planning, and execution.