Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application

📄 arXiv: 2502.20326v1 📥 PDF

作者: Thomas Hickling, Maxwell Hogan, Abdulla Tammam, Nabil Aouf

分类: cs.RO, cs.AI

发布日期: 2025-02-27

备注: 18 Pages, 21 Figures


💡 一句话要点

提出基于深度强化学习的无人机协同自主决策框架,用于GNSS拒止环境下的搜索与救援。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 多无人机协同 图卷积网络 自主导航 任务分配 GNSS拒止环境 搜索救援

📋 核心要点

  1. 现有方法在GNSS拒止的室内环境中,多无人机协同自主导航与任务分配方面存在挑战,尤其是在复杂障碍物环境中。
  2. 论文提出基于深度强化学习的框架,结合人工势场优化路径,并使用图卷积网络进行动态任务分配,实现高效协同。
  3. 实验结果表明,该框架在模拟和实际环境中均表现出色,并在2024年Sapience竞赛中获得第一名,验证了其有效性。

📝 摘要(中文)

本文提出了一个整体框架,用于在GNSS拒止的室内环境中,实现多无人机系统的自主引导、导航和任务分配。我们提倡一种基于深度强化学习(DRL)的引导机制,采用双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient)。为了提高训练效率,我们结合了基于人工势场(APF)的奖励结构,使智能体能够优化其运动,从而在室内环境中实现更平滑的路径和更强的避障能力。此外,我们通过DRL训练的图卷积网络(GCN)解决了协同无人机之间的任务分配问题。该GCN表示无人机和任务之间的交互,促进动态和实时的任务分配,反映了当前环境条件和无人机的能力。这种方法促进了多个无人机在搜索和救援行动或其他探索性工作中的有效协调和协作。最后,为了确保在缺乏GNSS的环境中进行精确的里程计测量,我们采用激光雷达同步定位与建图(LiDAR SLAM),并辅以深度相机来缓解走廊问题。这种集成提供了强大的定位和建图功能,从而提高了系统在室内导航中的可靠性。所提出的多无人机框架不仅提升了单个无人机的导航能力,还在复杂的、充满障碍物的环境中优化了协调任务分配。在为满足北约Sapience自主协同无人机竞赛要求而定制的设置中进行的实验评估证明了所提出系统的有效性,取得了出色的结果,并在2024年Sapience竞赛中获得了第一名。

🔬 方法详解

问题定义:论文旨在解决在GNSS拒止的室内环境中,多无人机如何实现自主导航、避障以及高效的任务分配问题。现有方法在复杂环境下难以保证导航的鲁棒性和任务分配的效率,尤其是在需要多无人机协同作业时,问题更加突出。

核心思路:论文的核心思路是利用深度强化学习(DRL)来训练无人机的导航策略和任务分配策略。通过DRL,无人机可以学习如何在复杂环境中自主导航和避障,并通过图卷积网络(GCN)实现动态的任务分配,从而提高整体的协同效率。人工势场(APF)被用于引导DRL的训练过程,使其更快地学习到有效的策略。

技术框架:整体框架包含三个主要模块:1) 基于Twin Delayed Deep Deterministic Policy Gradient (TD3) 的DRL导航模块,负责无人机的自主导航和避障;2) 基于DRL训练的图卷积网络(GCN)的任务分配模块,负责将任务动态分配给不同的无人机;3) 基于激光雷达SLAM和深度相机的定位模块,用于在GNSS拒止的环境中提供精确的里程计信息。这三个模块协同工作,实现了多无人机系统的自主导航、任务分配和协同作业。

关键创新:论文的关键创新在于将DRL、GCN和APF相结合,用于解决多无人机协同导航和任务分配问题。与传统的基于规则或优化的方法相比,DRL能够学习到更复杂的环境模型和策略,GCN能够有效地处理无人机和任务之间的交互关系,APF则加速了DRL的训练过程。这种结合使得无人机系统能够更好地适应复杂环境,并实现更高效的协同作业。

关键设计:在DRL导航模块中,使用了TD3算法,并结合了基于APF的奖励函数,以引导无人机学习更平滑的路径和更强的避障能力。在GCN任务分配模块中,GCN的输入是无人机和任务的状态信息,输出是任务分配的概率。GCN的训练目标是最大化整体的任务完成效率。定位模块采用了激光雷达SLAM和深度相机的融合方案,以提高定位的精度和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的多无人机框架在模拟和实际环境中均表现出色。在为满足北约Sapience自主协同无人机竞赛要求而定制的设置中,该系统取得了显著的成果,并在2024年Sapience竞赛中获得了第一名,验证了其在实际应用中的有效性和优越性。具体性能数据和对比基线信息未知。

🎯 应用场景

该研究成果可广泛应用于搜索与救援、灾害评估、室内巡检、物流配送等领域。通过多无人机协同作业,可以提高任务的效率和覆盖范围,降低人员风险,尤其是在复杂、危险或难以到达的环境中,具有重要的应用价值和潜力。未来,该技术有望进一步发展,实现更高级别的自主化和智能化。

📄 摘要(原文)

This paper proposes a holistic framework for autonomous guidance, navigation, and task distribution among multi-drone systems operating in Global Navigation Satellite System (GNSS)-denied indoor settings. We advocate for a Deep Reinforcement Learning (DRL)-based guidance mechanism, utilising the Twin Delayed Deep Deterministic Policy Gradient algorithm. To improve the efficiency of the training process, we incorporate an Artificial Potential Field (APF)-based reward structure, enabling the agent to refine its movements, thereby promoting smoother paths and enhanced obstacle avoidance in indoor contexts. Furthermore, we tackle the issue of task distribution among cooperative UAVs through a DRL-trained Graph Convolutional Network (GCN). This GCN represents the interactions between drones and tasks, facilitating dynamic and real-time task allocation that reflects the current environmental conditions and the capabilities of the drones. Such an approach fosters effective coordination and collaboration among multiple drones during search and rescue operations or other exploratory endeavours. Lastly, to ensure precise odometry in environments lacking GNSS, we employ Light Detection And Ranging Simultaneous Localisation and Mapping complemented by a depth camera to mitigate the hallway problem. This integration offers robust localisation and mapping functionalities, thereby enhancing the systems dependability in indoor navigation. The proposed multi-drone framework not only elevates individual navigation capabilities but also optimises coordinated task allocation in complex, obstacle-laden environments. Experimental evaluations conducted in a setup tailored to meet the requirements of the NATO Sapience Autonomous Cooperative Drone Competition demonstrate the efficacy of the proposed system, yielding outstanding results and culminating in a first-place finish in the 2024 Sapience competition.