A Scalable Decentralized Reinforcement Learning Framework for UAV Target Localization Using Recurrent PPO

作者: Leon Fernando, Billy Pik Lik Lau, Chau Yuen, U-Xuan Tan

分类: cs.RO, cs.LG

发布日期: 2024-12-09

备注: Submitted to TENCON 2024

💡 一句话要点

提出基于Recurrent PPO的可扩展去中心化强化学习框架，用于UAV目标定位

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 无人机 目标定位 去中心化强化学习 Recurrent PPO 多智能体系统

📋 核心要点

多无人机协同可以显著提升环境监测、灾害响应和农业测绘等应用效率，但缺乏GNSS/GPS信号的环境构成挑战。
论文提出基于Recurrent PPO的去中心化强化学习方法，利用检测传感器和目标信号传感器，实现无人机自主目标定位。
实验结果表明，单无人机模型准确率达93%，双无人机模型准确率86%，且定位步数更少，验证了该方法在复杂环境下的有效性。

📝 摘要（中文）

本文提出了一种基于循环近端策略优化（Recurrent PPO）的可扩展去中心化强化学习框架，用于在GNSS/GPS信号受限等感知退化环境中实现无人机（UAV）目标定位。该方法首先开发了单无人机目标识别模型，然后扩展到去中心化的双无人机模型。无人机可利用两种传感器：检测传感器和目标信号传感器。单无人机模型实现了93%的准确率，而双无人机模型实现了86%的准确率，且后者定位目标所需的平均步数更少。结果表明，该方法在UAV集群中具有潜力，能够高效、有效地定位复杂环境中的辐射目标。

🔬 方法详解

问题定义：论文旨在解决在感知退化环境下，例如缺乏GNSS/GPS信号的区域，如何利用多个去中心化的无人机高效、准确地定位目标的问题。现有方法在这些环境下表现不佳，需要更鲁棒和适应性强的解决方案。

核心思路：论文的核心思路是利用强化学习训练无人机自主学习目标定位策略。通过循环近端策略优化（Recurrent PPO）算法，无人机能够根据自身传感器数据（检测传感器和目标信号传感器）学习最优的行动策略，从而在复杂环境中有效地定位目标。去中心化的架构允许每个无人机独立决策，无需全局信息，提高了系统的可扩展性和鲁棒性。

技术框架：整体框架包含以下几个主要部分：1) 环境模拟器：用于模拟无人机飞行环境和目标信号分布；2) 传感器模型：模拟无人机上的检测传感器和目标信号传感器；3) 强化学习智能体：基于Recurrent PPO算法，学习无人机的控制策略；4) 去中心化决策机制：每个无人机独立运行一个强化学习智能体，根据自身观测做出决策。训练过程包括单无人机训练和双无人机协同训练两个阶段。

关键创新：论文的关键创新在于将Recurrent PPO算法应用于去中心化的无人机目标定位问题，并设计了一种有效的传感器融合策略。与传统的基于规则或优化的方法相比，该方法能够自主学习适应复杂环境，具有更强的鲁棒性和泛化能力。循环神经网络的使用使得智能体能够记住历史信息，从而更好地处理部分可观测环境。

关键设计：Recurrent PPO算法使用LSTM网络作为策略网络和价值网络，以处理时间序列数据。奖励函数的设计至关重要，包括接近目标的奖励、避免碰撞的惩罚以及完成任务的奖励。具体参数设置包括学习率、折扣因子、GAE参数等。损失函数包括策略损失、价值损失和熵正则化项，用于优化策略和价值函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，单无人机模型在目标定位任务中达到了93%的准确率，验证了Recurrent PPO算法的有效性。双无人机模型虽然准确率略有下降（86%），但定位目标所需的平均步数显著减少，表明多无人机协同可以提高效率。这些结果表明，该方法在复杂环境中具有良好的性能和潜力。

🎯 应用场景

该研究成果可应用于多种场景，如灾难救援、环境监测、边境巡逻等。在这些场景中，无人机需要在缺乏GPS信号或通信受限的复杂环境中自主执行任务。通过多无人机协同，可以提高搜索效率和覆盖范围，从而更有效地完成任务。未来，该技术还可以扩展到其他类型的机器人和传感器，实现更广泛的应用。

📄 摘要（原文）

The rapid advancements in unmanned aerial vehicles (UAVs) have unlocked numerous applications, including environmental monitoring, disaster response, and agricultural surveying. Enhancing the collective behavior of multiple decentralized UAVs can significantly improve these applications through more efficient and coordinated operations. In this study, we explore a Recurrent PPO model for target localization in perceptually degraded environments like places without GNSS/GPS signals. We first developed a single-drone approach for target identification, followed by a decentralized two-drone model. Our approach can utilize two types of sensors on the UAVs, a detection sensor and a target signal sensor. The single-drone model achieved an accuracy of 93%, while the two-drone model achieved an accuracy of 86%, with the latter requiring fewer average steps to locate the target. This demonstrates the potential of our method in UAV swarms, offering efficient and effective localization of radiant targets in complex environmental conditions.

A Scalable Decentralized Reinforcement Learning Framework for UAV Target Localization Using Recurrent PPO

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理