Reinforcement Learning Driven Multi-Robot Exploration via Explicit Communication and Density-Based Frontier Search

作者: Gabriele Calzolari, Vidya Sumathy, Christoforos Kanellakis, George Nikolakopoulos

分类: cs.RO

发布日期: 2024-12-28

备注: 7 pages, 6 figures, submitted to 2025 IEEE International Conference on Robotics & Automation (ICRA)

💡 一句话要点

提出基于强化学习、显式通信和密度前沿搜索的多机器人探索方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 多机器人系统 强化学习 协同探索 通信约束 前沿搜索

📋 核心要点

现有方法在通信受限和存在动态障碍物的未知环境中，多智能体协同探索效率较低，难以满足实际需求。
该论文提出一种基于强化学习的去中心化框架，结合智能体局部信息、全局地图信息和约束通信策略，提升探索效率。
通过仿真和真实实验验证，该方法在未知环境探索中表现出良好的鲁棒性和有效性，并减少了探索冗余。

📝 摘要（中文）

本文提出了一种基于强化学习的去中心化协作框架，用于增强未知环境中的多智能体探索。该方法利用智能体中心视野的占据栅格地图，以及基于A*算法的轨迹提取的特征，来决定智能体的下一步行动。此外，本文还提出了一种约束通信方案，使智能体能够有效地共享环境知识，从而最大限度地减少探索冗余。该框架的去中心化特性确保每个智能体自主运行，同时为集体探索任务做出贡献。在Gymnasium中的大量仿真和真实世界的实验证明了该系统的鲁棒性和有效性，所有结果都突出了将自主探索与智能体间地图共享相结合的优势，从而推动了可扩展和弹性机器人探索系统的发展。

🔬 方法详解

问题定义：论文旨在解决多机器人协同探索未知环境的问题，尤其是在通信受限和存在静态及动态障碍物的情况下。现有方法的痛点在于，如何在保证智能体自主性的前提下，有效地利用有限的通信资源共享环境信息，从而减少探索冗余，提高整体探索效率。

核心思路：论文的核心解决思路是利用强化学习训练智能体，使其能够根据局部环境信息和全局地图信息，自主地选择探索方向。同时，通过约束通信策略，使智能体能够有效地共享环境知识，避免重复探索。这种方法结合了自主探索和信息共享的优点，能够在通信受限的环境中实现高效的协同探索。

技术框架：整体框架是一个去中心化的多智能体系统。每个智能体都运行着一个强化学习策略网络，该网络以智能体中心视野的占据栅格地图和基于A算法的轨迹特征作为输入，输出智能体的下一步行动。智能体之间通过约束通信方案共享环境地图。具体流程如下：1. 每个智能体根据局部观测构建局部地图；2. 基于A算法规划到已知前沿的轨迹，提取轨迹特征；3. 将局部地图和轨迹特征输入强化学习策略网络，选择下一步行动；4. 根据约束通信策略，与其他智能体共享局部地图；5. 将接收到的地图信息融合到全局地图中。

关键创新：最重要的技术创新点在于将强化学习、显式通信和密度前沿搜索相结合。与传统的基于规则或优化的多智能体探索方法相比，该方法能够通过强化学习自动学习最优的探索策略，并能够有效地利用有限的通信资源。此外，密度前沿搜索能够引导智能体探索未知的区域，避免重复探索。

关键设计：论文中，强化学习策略网络采用卷积神经网络结构，输入为智能体中心视野的占据栅格地图和基于A*算法的轨迹特征。损失函数采用Actor-Critic算法中的TD误差。约束通信策略根据智能体之间的距离和地图重叠程度，决定是否进行地图共享。具体来说，只有当智能体之间的距离小于一定阈值，并且地图重叠程度小于一定阈值时，才会进行地图共享。

🖼️ 关键图片

📊 实验亮点

论文通过在Gymnasium仿真环境和真实机器人实验验证了所提出方法的有效性。实验结果表明，该方法能够显著提高多智能体探索的效率，并减少探索冗余。与传统的基于规则的探索方法相比，该方法在探索速度和地图完整性方面均有显著提升。具体数据未知，但强调了优于基线方法。

🎯 应用场景

该研究成果可应用于搜索与救援、灾后环境评估、未知环境测绘、自主导航等领域。通过多机器人协同探索，可以快速有效地获取环境信息，为后续决策提供支持。未来，该技术有望在复杂和危险的环境中发挥重要作用，例如在核泄漏事故或矿难中进行搜救。

📄 摘要（原文）

Collaborative multi-agent exploration of unknown environments is crucial for search and rescue operations. Effective real-world deployment must address challenges such as limited inter-agent communication and static and dynamic obstacles. This paper introduces a novel decentralized collaborative framework based on Reinforcement Learning to enhance multi-agent exploration in unknown environments. Our approach enables agents to decide their next action using an agent-centered field-of-view occupancy grid, and features extracted from $\text{A}^*$ algorithm-based trajectories to frontiers in the reconstructed global map. Furthermore, we propose a constrained communication scheme that enables agents to share their environmental knowledge efficiently, minimizing exploration redundancy. The decentralized nature of our framework ensures that each agent operates autonomously, while contributing to a collective exploration mission. Extensive simulations in Gymnasium and real-world experiments demonstrate the robustness and effectiveness of our system, while all the results highlight the benefits of combining autonomous exploration with inter-agent map sharing, advancing the development of scalable and resilient robotic exploration systems.

Reinforcement Learning Driven Multi-Robot Exploration via Explicit Communication and Density-Based Frontier Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理