Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning
作者: Yude Li, Zhexuan Zhou, Huizhe Li, Yanke Sun, Yenan Wu, Yichen Lai, Yiming Wang, Youmin Gong, Jie Mei
分类: cs.RO
发布日期: 2026-03-25
💡 一句话要点
提出基于预测时空观测的去中心化端到端多智能体强化学习追逐框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 多智能体强化学习 协同追逐 无人机集群 预测时空观测 去中心化控制
📋 核心要点
- 现有方法依赖抽象几何特征或特权状态,忽略了真实环境中的感知不确定性,限制了多智能体协同追逐的应用。
- 论文提出预测时空观测(PSTO),将障碍物、对抗意图和队友运动统一表示,并结合深度强化学习实现端到端控制。
- 实验表明,该方法在捕获效率和成功率上优于现有方法,且策略可扩展到不同团队规模,并在真实四旋翼飞行器上验证。
📝 摘要(中文)
本文提出了一种去中心化的端到端多智能体强化学习(MARL)框架,用于解决复杂环境中自主飞行器集群的协同追逐问题,尤其是在部分和噪声感知条件下。该框架直接将原始LiDAR观测映射到连续控制指令。核心是预测时空观测(PSTO),这是一种以自我为中心的网格表示,它将障碍物几何形状与预测的对抗意图和队友运动对齐到统一的、固定分辨率的投影中。基于PSTO,单个去中心化策略使智能体能够导航静态障碍物,拦截动态目标,并保持协同包围。仿真结果表明,与依赖特权障碍物信息的现有基于学习的方法相比,该方法实现了卓越的捕获效率和具有竞争力的成功率。此外,统一策略可以在不同的团队规模中无缝扩展,而无需重新训练。最后,完全自主的户外实验验证了四旋翼飞行器集群仅依靠机载传感和计算的框架。
🔬 方法详解
问题定义:论文旨在解决复杂环境中,多个自主飞行器(AAV)在部分和噪声感知条件下,如何去中心化地协同追逐目标的问题。现有方法通常依赖于抽象的几何特征或特权状态信息,这在实际应用中难以获得,并且忽略了感知的不确定性。因此,如何在仅依赖机载传感器数据的情况下,实现高效、鲁棒的多智能体协同追逐是一个挑战。
核心思路:论文的核心思路是利用深度强化学习,直接从原始LiDAR观测学习到控制策略,避免了人工设计特征的复杂性。通过引入预测时空观测(PSTO),将环境信息、目标意图和队友运动整合到一个统一的表示中,使智能体能够更好地理解环境并做出协同决策。这种端到端的学习方式能够更好地适应真实环境中的感知噪声和不确定性。
技术框架:整体框架包括以下几个主要模块:1) 感知模块:使用机载LiDAR传感器获取环境信息。2) PSTO构建模块:将LiDAR数据转换为以自我为中心的网格表示,并预测目标意图和队友运动。3) 深度强化学习模块:使用PSTO作为输入,训练一个去中心化的策略网络,输出连续控制指令。4) 控制执行模块:将控制指令发送给飞行器,实现自主飞行。整个流程是端到端的,无需人工干预。
关键创新:论文最重要的技术创新点在于预测时空观测(PSTO)的提出。PSTO将静态障碍物、动态目标以及队友信息整合到一个统一的、固定分辨率的网格表示中。与传统的基于几何特征的方法相比,PSTO能够更好地捕捉环境的复杂性和动态性,并为智能体提供更全面的信息。此外,PSTO还考虑了目标的预测意图,使智能体能够更有效地进行追逐。
关键设计:PSTO的关键设计包括:1) 以自我为中心的坐标系,使智能体能够更好地理解自身与环境的关系。2) 固定分辨率的网格表示,方便深度学习模型的处理。3) 预测模块,用于预测目标的未来位置和队友的运动轨迹。在深度强化学习方面,论文使用了一种基于Actor-Critic的算法,并设计了合适的奖励函数,以鼓励智能体进行协同追逐。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在仿真环境中实现了比现有方法更高的捕获效率和成功率。与依赖特权障碍物信息的基线方法相比,该方法在复杂环境中表现出更强的鲁棒性。此外,该方法还成功地在真实的四旋翼飞行器集群上进行了验证,证明了其在实际应用中的可行性。值得注意的是,该策略无需重新训练即可扩展到不同的团队规模。
🎯 应用场景
该研究成果可应用于无人机集群协同作业、智能交通、机器人足球等领域。在军事侦察、搜救行动、环境监测等场景中,多智能体协同可以提高任务效率和鲁棒性。此外,该方法还可以扩展到其他类型的机器人平台,例如地面机器人和水下机器人,具有广泛的应用前景。
📄 摘要(原文)
Decentralized cooperative pursuit in cluttered environments is challenging for autonomous aerial swarms, especially under partial and noisy perception. Existing methods often rely on abstracted geometric features or privileged ground-truth states, and therefore sidestep perceptual uncertainty in real-world settings. We propose a decentralized end-to-end multi-agent reinforcement learning (MARL) framework that maps raw LiDAR observations directly to continuous control commands. Central to the framework is the Predictive Spatio-Temporal Observation (PSTO), an egocentric grid representation that aligns obstacle geometry with predictive adversarial intent and teammate motion in a unified, fixed-resolution projection. Built on PSTO, a single decentralized policy enables agents to navigate static obstacles, intercept dynamic targets, and maintain cooperative encirclement. Simulations demonstrate that the proposed method achieves superior capture efficiency and competitive success rates compared to state-of-the-art learning-based approaches relying on privileged obstacle information. Furthermore, the unified policy scales seamlessly across different team sizes without retraining. Finally, fully autonomous outdoor experiments validate the framework on a quadrotor swarm relying on only onboard sensing and computing.