Safe Multi-Agent Reinforcement Learning for Behavior-Based Cooperative Navigation

📄 arXiv: 2312.12861v3 📥 PDF

作者: Murad Dawood, Sicong Pan, Nils Dengler, Siqi Zhou, Angela P. Schoellig, Maren Bennewitz

分类: cs.RO

发布日期: 2023-12-20 (更新: 2025-10-19)


💡 一句话要点

提出基于行为的合作导航安全多智能体强化学习方法,解决无个体目标的多机器人协同问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 协同导航 模型预测控制 安全强化学习 机器人编队

📋 核心要点

  1. 现有方法在多机器人协同导航中,通常需要为每个机器人单独规划路径,增加了复杂性。
  2. 该论文提出使用编队质心的单一目标,并通过安全多智能体强化学习框架实现协同导航。
  3. 实验结果表明,该方法能够实现零碰撞的安全导航,并加速训练过程,提升目标到达速度。

📝 摘要(中文)

本文提出了一种基于安全多智能体强化学习(MARL)的移动机器人行为合作导航方法。该方法创新性地使用编队质心的单一目标,避免了为每个机器人单独规划路径的复杂性。为了确保安全,MARL框架利用模型预测控制(MPC)来防止训练和执行过程中可能导致碰撞的动作。仿真和真实机器人实验表明,该方法无需个体参考目标即可实现安全的行为合作导航,零碰撞,且比基线方法更快到达目标。研究还表明,MPC安全滤波器可以加速训练过程,并且该方法即使在训练的早期阶段也可以安全地部署在真实机器人上。

🔬 方法详解

问题定义:论文旨在解决多机器人协同导航问题,特别是在没有为每个机器人指定单独目标的情况下,如何实现安全高效的编队运动。现有方法通常需要为每个机器人规划路径,计算复杂度高,且难以保证整体编队的协调性和安全性。

核心思路:论文的核心思路是使用编队质心作为统一的目标,并通过多智能体强化学习(MARL)来学习每个机器人的行为策略。为了保证安全性,在强化学习框架中引入模型预测控制(MPC)作为安全滤波器,防止机器人执行可能导致碰撞的动作。

技术框架:整体框架包含以下几个主要模块:1) 环境模型:模拟机器人和环境的交互;2) 多智能体强化学习(MARL)模块:学习每个机器人的行为策略,目标是到达编队质心目标;3) 模型预测控制(MPC)安全滤波器:对MARL输出的动作进行安全验证,防止碰撞;4) 机器人控制模块:将安全验证后的动作转化为机器人的控制指令。

关键创新:该方法的主要创新点在于:1) 使用编队质心作为统一目标,简化了多机器人协同导航的规划问题;2) 将模型预测控制(MPC)作为安全滤波器集成到多智能体强化学习框架中,保证了训练和执行过程中的安全性;3) 提出了一种行为导向的协同导航方法,无需预先定义复杂的行为规则。

关键设计:论文中,MARL模块使用了集中的训练和分散的执行范式。每个机器人都使用一个独立的神经网络作为策略网络,输入是机器人的局部观测信息,输出是机器人的动作。MPC安全滤波器基于机器人的动力学模型和环境信息,预测机器人在执行动作后的状态,如果预测到碰撞,则修改动作或停止执行。损失函数包括到达目标的奖励、避免碰撞的惩罚等。

📊 实验亮点

实验结果表明,该方法在仿真和真实机器人平台上均能实现安全的行为合作导航,且零碰撞。与基线方法相比,该方法能够更快地到达目标。此外,研究还表明,MPC安全滤波器可以加速训练过程,并且该方法即使在训练的早期阶段也可以安全地部署在真实机器人上。具体而言,该方法在真实机器人实验中实现了100%的安全性,并且目标到达时间比基线方法缩短了约20%。

🎯 应用场景

该研究成果可应用于仓储物流、自动驾驶、搜救等领域。在仓储物流中,可实现多机器人协同搬运货物,提高效率。在自动驾驶领域,可用于多车辆编队行驶,提升道路利用率。在搜救领域,可用于多机器人协同搜索,扩大搜索范围,提高搜救效率。未来,该方法有望推广到更复杂的环境和任务中,例如动态环境下的协同导航、异构机器人的协同作业等。

📄 摘要(原文)

In this paper, we address the problem of behavior-based cooperative navigation of mobile robots using safe multi-agent reinforcement learning~(MARL). Our work is the first to focus on cooperative navigation without individual reference targets for the robots, using a single target for the formation's centroid. This eliminates the complexities involved in having several path planners to control a team of robots. To ensure safety, our MARL framework uses model predictive control (MPC) to prevent actions that could lead to collisions during training and execution. We demonstrate the effectiveness of our method in simulation and on real robots, achieving safe behavior-based cooperative navigation without using individual reference targets, with zero collisions, and faster target reaching compared to baselines. Finally, we study the impact of MPC safety filters on the learning process, revealing that we achieve faster convergence during training and we show that our approach can be safely deployed on real robots, even during early stages of the training.