Online Planning for Multi-UAV Pursuit-Evasion in Unknown Environments Using Deep Reinforcement Learning
作者: Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Shilong Ji, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang
分类: cs.RO, cs.LG
发布日期: 2024-09-24 (更新: 2025-07-08)
备注: Published in IEEE Robotics and Automation Letters 2025
💡 一句话要点
提出基于深度强化学习的多无人机追逃在线规划方法,适用于未知环境。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多无人机 追逃 深度强化学习 在线规划 未知环境 自适应环境生成 零样本迁移
📋 核心要点
- 现有基于强化学习的追逃方法通常局限于简化模拟环境,难以应对真实无人机动力学约束和环境未知性。
- 论文提出一种基于深度强化学习的在线规划方法,通过逃避者预测增强网络和自适应环境生成器,提升策略泛化能力。
- 实验结果表明,该方法在复杂场景中显著优于基线方法,并在真实四旋翼飞行器上实现了零样本部署,捕获率达100%。
📝 摘要(中文)
多无人机追逃是无人机集群智能的关键挑战。多智能体强化学习(MARL)在建模合作行为方面显示出潜力,但大多数基于RL的方法仍局限于具有有限动力学或固定场景的简化模拟。先前将RL策略部署到真实追逃场景的尝试主要局限于二维场景,例如地面车辆或固定高度的无人机。本文通过考虑无人机动力学和物理约束来解决多无人机追逃问题。我们引入了一种增强逃避者预测的网络,以解决合作策略学习中的部分可观测性问题。此外,我们提出了MARL训练中的自适应环境生成器,从而实现更高的探索效率和更好的策略泛化能力。仿真表明,我们的方法在具有挑战性的场景中明显优于所有基线,并推广到未见过的场景,捕获率为100%。最后,我们通过两阶段奖励细化推导出可行的策略,并在真实四旋翼飞行器上以零样本方式部署该策略。据我们所知,这是第一个使用集体推力和机身姿态控制指令,为未知环境中的多无人机追逃推导和部署基于RL策略的工作。开源代码和视频可在https://sites.google.com/view/pursuit-evasion-rl 获得。
🔬 方法详解
问题定义:论文旨在解决多无人机在未知环境中追捕逃逸无人机的问题。现有方法通常在简化的模拟环境中进行训练,忽略了无人机的动力学约束和真实环境的复杂性,导致策略难以泛化到真实场景。此外,部分可观测性也给合作策略学习带来了挑战。
核心思路:论文的核心思路是利用深度强化学习训练多无人机协同追捕策略,并通过逃避者预测增强网络来缓解部分可观测性问题。同时,采用自适应环境生成器来提高探索效率和策略的泛化能力。这种设计旨在使训练得到的策略能够直接部署到真实无人机上,实现零样本迁移。
技术框架:整体框架包含以下几个主要模块:1) 基于多智能体强化学习的策略学习模块,用于训练无人机的控制策略。2) 逃避者预测增强网络,用于预测逃逸无人机的未来位置,从而提高追捕效率。3) 自适应环境生成器,用于在训练过程中生成多样化的环境,提高策略的泛化能力。4) 两阶段奖励细化,用于优化策略,使其能够在真实无人机上执行。
关键创新:论文的关键创新在于:1) 提出了一种逃避者预测增强网络,有效地解决了部分可观测性问题,提高了追捕效率。2) 引入了自适应环境生成器,显著提高了策略的泛化能力,使其能够适应未知的环境。3) 实现了基于深度强化学习的策略在真实四旋翼飞行器上的零样本部署,这是该领域的一个重要突破。
关键设计:论文中,逃避者预测增强网络可能采用了某种循环神经网络结构(具体结构未知)来预测逃逸者的轨迹。自适应环境生成器可能通过调整环境参数(如障碍物密度、逃逸者速度等)来生成不同的训练场景。两阶段奖励细化可能包括稀疏奖励和密集奖励,以引导无人机学习有效的追捕策略。具体的损失函数和网络参数设置在论文中可能有所描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在复杂场景中显著优于所有基线方法,并在推广到未见过的场景时,捕获率达到100%。此外,该方法成功地将训练得到的策略部署到真实四旋翼飞行器上,实现了零样本迁移,验证了该方法的实用性和有效性。
🎯 应用场景
该研究成果可应用于无人机集群协同作战、安防巡逻、搜救任务等领域。通过训练无人机集群自主完成追捕任务,可以提高任务效率,降低人力成本,并减少人员伤亡风险。未来,该技术有望应用于更复杂的无人机协同任务中,例如协同侦察、协同攻击等。
📄 摘要(原文)
Multi-UAV pursuit-evasion, where pursuers aim to capture evaders, poses a key challenge for UAV swarm intelligence. Multi-agent reinforcement learning (MARL) has demonstrated potential in modeling cooperative behaviors, but most RL-based approaches remain constrained to simplified simulations with limited dynamics or fixed scenarios. Previous attempts to deploy RL policy to real-world pursuit-evasion are largely restricted to two-dimensional scenarios, such as ground vehicles or UAVs at fixed altitudes. In this paper, we address multi-UAV pursuit-evasion by considering UAV dynamics and physical constraints. We introduce an evader prediction-enhanced network to tackle partial observability in cooperative strategy learning. Additionally, we propose an adaptive environment generator within MARL training, enabling higher exploration efficiency and better policy generalization across diverse scenarios. Simulations show our method significantly outperforms all baselines in challenging scenarios, generalizing to unseen scenarios with a 100% capture rate. Finally, we derive a feasible policy via a two-stage reward refinement and deploy the policy on real quadrotors in a zero-shot manner. To our knowledge, this is the first work to derive and deploy an RL-based policy using collective thrust and body rates control commands for multi-UAV pursuit-evasion in unknown environments. The open-source code and videos are available at https://sites.google.com/view/pursuit-evasion-rl.