LLM-MCoX: Large Language Model-based Multi-robot Coordinated Exploration and Search

📄 arXiv: 2509.26324v2 📥 PDF

作者: Ruiyang Wang, Hao-Lun Hsu, David Hunt, Shaocheng Luo, Jiwoo Kim, Miroslav Pajic

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-30 (更新: 2025-10-04)


💡 一句话要点

提出LLM-MCoX以解决多机器人协同探索与搜索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 协同探索 物体搜索 大型语言模型 实时数据处理 自然语言理解 智能协调

📋 核心要点

  1. 现有方法在多机器人系统的协同探索和搜索中存在边界分配策略不足和机器人间协调性差的问题。
  2. 本文提出的LLM-MCoX框架利用大型语言模型进行智能协调,结合实时激光雷达数据和多模态推理生成航点分配。
  3. 实验结果表明,LLM-MCoX在六个机器人协同工作时,探索时间比传统方法快22.7%,搜索效率提高50%。

📝 摘要(中文)

在未知室内环境中,自动探索和物体搜索对多机器人系统(MRS)仍然具有挑战性。传统方法通常依赖于贪婪的边界分配策略,缺乏机器人间的协调。本文提出了LLM-MCoX(基于大型语言模型的多机器人协同探索与搜索),这是一个新颖的框架,利用大型语言模型(LLMs)智能协调同质和异质机器人团队进行高效探索和目标物体搜索。该方法结合实时激光雷达扫描处理、边界聚类提取和门口检测,以及多模态LLM推理(如GPT-4o),基于共享环境地图和机器人状态生成协调的航点分配。LLM-MCoX在大规模环境中表现优越,探索时间提高22.7%,搜索效率提升50%。

🔬 方法详解

问题定义:本文旨在解决多机器人系统在未知室内环境中的协同探索与物体搜索问题。现有方法多依赖贪婪策略,导致机器人间缺乏有效协调,影响整体效率。

核心思路:LLM-MCoX的核心思路是利用大型语言模型进行智能化的任务协调,结合实时环境感知数据,生成更为合理的航点分配方案,以提升探索和搜索效率。

技术框架:该框架主要包括三个模块:实时激光雷达数据处理模块、LLM推理模块和航点分配模块。首先,激光雷达数据用于提取边界和门口信息;然后,LLM根据共享的环境地图和机器人状态进行推理,最后生成协调的航点分配。

关键创新:LLM-MCoX的创新点在于将大型语言模型引入多机器人协同任务中,使得机器人能够理解和执行基于自然语言的高层次指令,这是传统算法无法实现的。

关键设计:在设计中,采用了实时数据处理和多模态推理相结合的方式,确保了系统的响应速度和决策的准确性。具体的参数设置和损失函数设计尚未详细披露,可能为未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLM-MCoX在六个机器人协同工作时,探索时间比传统贪婪和Voronoi方法快22.7%,搜索效率提高50%。这一显著提升表明该方法在大规模环境中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括智能家居、灾后救援、仓储管理等场景,能够显著提升多机器人系统在复杂环境中的自主探索和物体搜索能力。未来,随着技术的进一步发展,LLM-MCoX有望在更多实际应用中发挥重要作用。

📄 摘要(原文)

Autonomous exploration and object search in unknown indoor environments remain challenging for multi-robot systems (MRS). Traditional approaches often rely on greedy frontier assignment strategies with limited inter-robot coordination. In this work, we introduce LLM-MCoX (LLM-based Multi-robot Coordinated Exploration and Search), a novel framework that leverages Large Language Models (LLMs) for intelligent coordination of both homogeneous and heterogeneous robot teams tasked with efficient exploration and target object search. Our approach combines real-time LiDAR scan processing for frontier cluster extraction and doorway detection with multimodal LLM reasoning (e.g., GPT-4o) to generate coordinated waypoint assignments based on shared environment maps and robot states. LLM-MCoX demonstrates superior performance compared to existing methods, including greedy and Voronoi-based planners, achieving 22.7% faster exploration times and 50% improved search efficiency in large environments with 6 robots. Notably, LLM-MCoX enables natural language-based object search capabilities, allowing human operators to provide high-level semantic guidance that traditional algorithms cannot interpret.