LLM-MCoX: Large Language Model-based Multi-robot Coordinated Exploration and Search

作者: Ruiyang Wang, Hao-Lun Hsu, David Hunt, Shaocheng Luo, Jiwoo Kim, Miroslav Pajic

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-09-30 (更新: 2025-10-04)

💡 一句话要点

LLM-MCoX：基于大语言模型的多机器人协同探索与搜索框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多机器人系统 协同探索 目标搜索 大型语言模型 机器人导航

📋 核心要点

多机器人系统在未知室内环境中的自主探索和目标搜索面临挑战，传统方法缺乏有效的机器人间协调。
LLM-MCoX利用大型语言模型进行智能协调，结合激光雷达扫描和多模态LLM推理，生成协同航点分配。
实验表明，LLM-MCoX在探索速度和搜索效率方面优于现有方法，并支持自然语言引导的目标搜索。

📝 摘要（中文）

本文提出了一种名为LLM-MCoX的新框架，该框架利用大型语言模型（LLM）智能地协调同构和异构机器人团队，以实现高效的探索和目标对象搜索。该方法结合了实时激光雷达扫描处理，用于提取前沿聚类和检测门口，以及多模态LLM推理（例如GPT-4o），以基于共享环境地图和机器人状态生成协调的航点分配。与现有的方法（包括贪婪和基于Voronoi的规划器）相比，LLM-MCoX表现出卓越的性能，在具有6个机器人的大型环境中，探索时间缩短了22.7％，搜索效率提高了50％。值得注意的是，LLM-MCoX实现了基于自然语言的对象搜索功能，允许人类操作员提供传统算法无法解释的高级语义指导。

🔬 方法详解

问题定义：多机器人协同探索和搜索任务旨在高效地覆盖未知环境并定位特定目标。现有方法，如贪婪算法和基于Voronoi图的规划器，通常依赖于局部信息，缺乏全局协同，导致探索效率低下，尤其是在复杂环境中。此外，传统方法难以理解和利用人类操作员提供的语义信息进行目标搜索。

核心思路：LLM-MCoX的核心在于利用大型语言模型（LLM）的强大推理能力，对多机器人系统的探索和搜索过程进行全局优化和协同。LLM能够理解环境信息、机器人状态以及人类指令，并生成协调的航点分配方案，从而提高探索效率和搜索精度。这种方法将传统的几何规划与LLM的语义理解能力相结合，实现了更智能的机器人协同。

技术框架：LLM-MCoX框架主要包含以下几个模块：1) 环境感知模块：利用激光雷达扫描获取环境信息，提取前沿聚类和检测门口等关键特征。2) LLM推理模块：将环境信息、机器人状态和人类指令输入LLM（如GPT-4o），LLM根据这些信息生成协调的航点分配方案。3) 运动规划模块：根据LLM生成的航点，为每个机器人规划具体的运动轨迹。4) 执行模块：机器人执行规划的轨迹，并实时更新环境地图和机器人状态。整个流程是一个循环迭代的过程，机器人不断探索新的区域，并根据LLM的指令进行协同搜索。

关键创新：LLM-MCoX的关键创新在于将大型语言模型引入多机器人协同探索和搜索任务中，利用LLM的语义理解和推理能力，实现了更智能的机器人协同。与传统的几何规划方法相比，LLM-MCoX能够更好地理解环境信息和人类指令，并生成更优的航点分配方案。此外，LLM-MCoX还支持自然语言引导的目标搜索，允许人类操作员提供高级语义指导，这是传统算法无法实现的。

关键设计：LLM-MCoX的关键设计包括：1) 多模态输入：LLM接收来自激光雷达扫描的环境信息、机器人状态和人类指令等多模态输入。2) 提示工程：设计合适的提示语，引导LLM生成符合要求的航点分配方案。3) 奖励函数：设计奖励函数，鼓励LLM生成能够最大化探索效率和搜索精度的航点分配方案。4) 迭代优化：通过迭代优化，不断改进LLM生成的航点分配方案，提高机器人协同的效率和精度。

📊 实验亮点

实验结果表明，LLM-MCoX在大型环境中，与贪婪算法和基于Voronoi图的规划器相比，探索时间缩短了22.7％，搜索效率提高了50％。此外，LLM-MCoX还实现了自然语言引导的目标搜索功能，允许人类操作员提供高级语义指导，这是传统算法无法实现的。这些结果表明，LLM-MCoX在多机器人协同探索和搜索任务中具有显著的优势。

🎯 应用场景

LLM-MCoX具有广泛的应用前景，例如在灾难救援中，可以利用多机器人系统快速探索受灾区域，定位幸存者；在仓库管理中，可以利用多机器人系统高效地进行货物盘点和搬运；在安防巡逻中，可以利用多机器人系统进行全方位监控和异常检测。该研究的实际价值在于提高了多机器人系统的自主性和协同能力，未来有望应用于更复杂的环境和任务中。

📄 摘要（原文）

Autonomous exploration and object search in unknown indoor environments remain challenging for multi-robot systems (MRS). Traditional approaches often rely on greedy frontier assignment strategies with limited inter-robot coordination. In this work, we introduce LLM-MCoX (LLM-based Multi-robot Coordinated Exploration and Search), a novel framework that leverages Large Language Models (LLMs) for intelligent coordination of both homogeneous and heterogeneous robot teams tasked with efficient exploration and target object search. Our approach combines real-time LiDAR scan processing for frontier cluster extraction and doorway detection with multimodal LLM reasoning (e.g., GPT-4o) to generate coordinated waypoint assignments based on shared environment maps and robot states. LLM-MCoX demonstrates superior performance compared to existing methods, including greedy and Voronoi-based planners, achieving 22.7% faster exploration times and 50% improved search efficiency in large environments with 6 robots. Notably, LLM-MCoX enables natural language-based object search capabilities, allowing human operators to provide high-level semantic guidance that traditional algorithms cannot interpret.

LLM-MCoX: Large Language Model-based Multi-robot Coordinated Exploration and Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册