AgilePilot: DRL-Based Drone Agent for Real-Time Motion Planning in Dynamic Environments by Leveraging Object Detection
作者: Roohan Ahmed Khan, Valerii Serpiva, Demetros Aschalew, Aleksey Fedoseev, Dzmitry Tsetserukou
分类: cs.RO
发布日期: 2025-02-10 (更新: 2025-04-22)
备注: Manuscript has been accepted at 2025 INTERNATIONAL CONFERENCE ON UNMANNED AIRCRAFT SYSTEMS (ICUAS)
💡 一句话要点
AgilePilot:基于DRL和目标检测的无人机实时动态环境运动规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机导航 深度强化学习 运动规划 目标检测 动态环境 实时控制 计算机视觉
📋 核心要点
- 现有方法在动态环境中无人机导航面临实时性与适应性挑战,难以应对快速变化的目标。
- AgilePilot利用深度强化学习在动态环境中训练无人机,结合实时计算机视觉进行目标检测。
- 实验表明,AgilePilot在速度和跟踪精度上显著优于传统方法,并在真实环境中表现出高成功率。
📝 摘要(中文)
在动态环境中实现自主无人机导航仍然是一个关键挑战,尤其是在处理快速移动且目标位置快速变化的不可预测场景时。尽管传统的规划器和经典优化方法已被广泛用于解决这一动态问题,但它们常常面临实时的、不可预测的变化,最终导致在适应性和实时决策方面的次优性能。本文提出了一种新颖的运动规划器AgilePilot,它基于深度强化学习(DRL),在动态条件下进行训练,并结合实时计算机视觉(CV)进行飞行中的目标检测。该训练到部署的框架弥合了Sim2Real的差距,利用复杂的奖励结构来促进安全性和敏捷性,具体取决于环境条件。该系统可以快速适应不断变化的环境,同时在真实场景中达到3.0米/秒的最大速度。相比之下,我们的方法在动态目标的性能和跟踪精度方面,通过使用速度预测,优于基于人工势场(APF)的运动规划器3倍,并在75次实验中表现出90%的成功率。这项工作突出了DRL在解决实时动态导航挑战方面的有效性,提供了智能安全性和敏捷性。
🔬 方法详解
问题定义:论文旨在解决动态环境中无人机实时运动规划问题,尤其是在存在快速移动目标的情况下。传统规划方法,如人工势场法,难以适应环境的快速变化,导致性能下降和跟踪精度不足。现有方法在适应性和实时决策方面存在局限性。
核心思路:论文的核心思路是利用深度强化学习(DRL)训练无人机在动态环境中进行运动规划。通过学习环境的动态特性和目标的运动模式,无人机可以实时做出决策,实现安全且敏捷的导航。结合实时计算机视觉进行目标检测,使无人机能够感知环境变化并做出相应调整。
技术框架:AgilePilot的整体框架包含以下几个主要模块:1) 基于计算机视觉的目标检测模块,用于实时感知环境中的动态目标;2) 基于深度强化学习的运动规划模块,根据目标检测结果和环境信息,生成无人机的运动轨迹;3) 奖励函数设计,用于指导DRL模型的训练,平衡安全性和敏捷性;4) Sim2Real迁移策略,用于将仿真环境中训练的模型迁移到真实环境中。
关键创新:该方法最重要的创新点在于将深度强化学习与实时计算机视觉相结合,实现无人机在动态环境中的实时运动规划。与传统方法相比,该方法能够更好地适应环境变化,提高运动规划的效率和精度。此外,奖励函数的设计和Sim2Real迁移策略也是关键创新,保证了无人机在真实环境中的安全性和性能。
关键设计:奖励函数的设计是关键,需要平衡安全性和敏捷性。例如,可以设置与障碍物距离相关的惩罚项,以及与目标跟踪精度相关的奖励项。网络结构方面,可以使用卷积神经网络(CNN)提取图像特征,然后使用循环神经网络(RNN)处理时间序列数据。具体的参数设置需要根据实际情况进行调整,例如学习率、折扣因子等。
🖼️ 关键图片
📊 实验亮点
AgilePilot在真实场景中达到了3.0米/秒的最大速度,并在75次实验中取得了90%的成功率。与基于人工势场(APF)的运动规划器相比,AgilePilot在性能和动态目标跟踪精度方面提高了3倍。这些实验结果表明,AgilePilot在动态环境中的运动规划方面具有显著优势。
🎯 应用场景
该研究成果可应用于物流配送、安防巡逻、灾害救援等领域。在这些场景中,无人机需要在复杂的动态环境中自主导航,避开障碍物并跟踪目标。AgilePilot能够提高无人机在这些场景中的适应性和效率,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Autonomous drone navigation in dynamic environments remains a critical challenge, especially when dealing with unpredictable scenarios including fast-moving objects with rapidly changing goal positions. While traditional planners and classical optimisation methods have been extensively used to address this dynamic problem, they often face real-time, unpredictable changes that ultimately leads to sub-optimal performance in terms of adaptiveness and real-time decision making. In this work, we propose a novel motion planner, AgilePilot, based on Deep Reinforcement Learning (DRL) that is trained in dynamic conditions, coupled with real-time Computer Vision (CV) for object detections during flight. The training-to-deployment framework bridges the Sim2Real gap, leveraging sophisticated reward structures that promotes both safety and agility depending upon environment conditions. The system can rapidly adapt to changing environments, while achieving a maximum speed of 3.0 m/s in real-world scenarios. In comparison, our approach outperforms classical algorithms such as Artificial Potential Field (APF) based motion planner by 3 times, both in performance and tracking accuracy of dynamic targets by using velocity predictions while exhibiting 90% success rate in 75 conducted experiments. This work highlights the effectiveness of DRL in tackling real-time dynamic navigation challenges, offering intelligent safety and agility.