MARLander: A Local Path Planning for Drone Swarms using Multiagent Deep Reinforcement Learning

📄 arXiv: 2406.04159v1 📥 PDF

作者: Demetros Aschu, Robinroy Peter, Sausar Karaf, Aleksey Fedoseev, Dzmitry Tsetserukou

分类: cs.RO, cs.MA

发布日期: 2024-06-06


💡 一句话要点

提出基于多智能体深度强化学习的无人机集群局部路径规划方法,实现精准着陆。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 无人机集群 路径规划 精准着陆 深度学习

📋 核心要点

  1. 传统无人机集群着陆方法依赖集中式控制,难以扩展且对环境变化适应性差,面临安全性和精确性挑战。
  2. 论文提出基于MADRL的局部路径规划方法,通过学习无人机间的协作策略,实现分散式控制和精准着陆。
  3. 实验结果表明,该方法在静态和动态平台上的着陆精度均优于传统PID+APF方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于多智能体深度强化学习(MADRL)的无人机集群精准着陆方法,用于解决传统控制和规划方法在无人机集群安全、精确着陆方面的挑战。该系统在逼真的模拟环境中进行训练,最大速度为3米/秒,训练空间为4 x 4 x 4米。实验采用Crazyflie无人机和Vicon室内定位系统进行部署。实验结果表明,该方法在静态平台上的着陆精度为2.26厘米,在移动平台上的着陆精度为3.93厘米,优于使用人工势场(APF)的比例-积分-微分(PID)控制器基线方法。这项研究突出了无人机着陆技术,它无需集中的分析系统,从而可能提供可扩展性,并彻底改变物流、安全和救援任务中的应用。

🔬 方法详解

问题定义:论文旨在解决无人机集群在复杂环境下的精准着陆问题。现有方法,如基于PID控制结合人工势场的方法,依赖于精确的全局信息,难以应对环境变化和无人机数量增加带来的挑战,存在扩展性差、鲁棒性不足等问题。

核心思路:论文的核心思路是利用多智能体深度强化学习,让每个无人机通过与环境和其他无人机的交互,学习到最优的局部路径规划策略。通过分散式控制,提高系统的鲁棒性和可扩展性,无需依赖全局信息。

技术框架:整体框架包含以下几个主要部分:1) 模拟环境搭建,用于训练MADRL模型;2) MADRL算法设计,包括状态空间、动作空间、奖励函数等;3) 模型训练,使用多智能体强化学习算法训练无人机集群的着陆策略;4) 实验验证,在真实无人机平台上验证算法的性能。

关键创新:最重要的创新点在于将多智能体深度强化学习应用于无人机集群的局部路径规划和着陆控制。与传统的集中式控制方法相比,该方法具有更好的可扩展性和鲁棒性,能够适应复杂环境和无人机数量的变化。

关键设计:论文中关键的设计包括:1) 状态空间的设计,需要包含无人机自身的位置、速度信息,以及周围其他无人机和目标位置的信息;2) 奖励函数的设计,需要引导无人机尽快到达目标位置,同时避免碰撞;3) 网络结构的设计,可以使用Actor-Critic框架,分别学习策略和价值函数;4) 训练过程中的探索与利用平衡,可以使用ε-greedy策略或其他探索方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在静态平台上的着陆精度达到2.26厘米,在移动平台上的着陆精度达到3.93厘米。与基于PID控制结合人工势场的基线方法相比,该方法在着陆精度方面有显著提升,验证了MADRL在无人机集群着陆控制方面的有效性。

🎯 应用场景

该研究成果可广泛应用于物流配送、灾难救援、环境监测等领域。在物流配送中,无人机集群可以实现高效、精准的货物运输。在灾难救援中,无人机集群可以用于搜索幸存者、评估灾情。在环境监测中,无人机集群可以用于收集环境数据、监测污染源。该技术有望提升相关领域的自动化水平和效率。

📄 摘要(原文)

Achieving safe and precise landings for a swarm of drones poses a significant challenge, primarily attributed to conventional control and planning methods. This paper presents the implementation of multi-agent deep reinforcement learning (MADRL) techniques for the precise landing of a drone swarm at relocated target locations. The system is trained in a realistic simulated environment with a maximum velocity of 3 m/s in training spaces of 4 x 4 x 4 m and deployed utilizing Crazyflie drones with a Vicon indoor localization system. The experimental results revealed that the proposed approach achieved a landing accuracy of 2.26 cm on stationary and 3.93 cm on moving platforms surpassing a baseline method used with a Proportional-integral-derivative (PID) controller with an Artificial Potential Field (APF). This research highlights drone landing technologies that eliminate the need for analytical centralized systems, potentially offering scalability and revolutionizing applications in logistics, safety, and rescue missions.