Navigation in a simplified Urban Flow through Deep Reinforcement Learning

📄 arXiv: 2409.17922v1 📥 PDF

作者: Federica Tonti, Jean Rabault, Ricardo Vinuesa

分类: cs.AI

发布日期: 2024-09-26


💡 一句话要点

提出基于PPO+LSTM的深度强化学习方法,优化无人机在城市环境中的自主导航。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 无人机导航 城市环境 PPO算法 LSTM网络 流体流动模拟 自主导航

📋 核心要点

  1. 城市环境中无人机数量增加,对能源效率和噪音控制提出了更高要求,现有飞行规划方法难以兼顾。
  2. 利用深度强化学习,将无人机置于模拟城市流场环境中进行训练,优化其导航轨迹,降低能耗和噪音。
  3. 实验表明,基于PPO+LSTM的算法在Zermelo问题上表现优异,成功率显著高于PPO和TD3算法。

📝 摘要(中文)

无人机在城市环境中日益增多,需要一种策略来最大限度地减少其对环境的影响,包括能源效率和降低噪音。为了解决这些问题,需要开发新的预测模型和飞行规划优化策略,例如通过深度强化学习(DRL)。本文旨在开发DRL算法,使无人机能够在城市环境中自主导航,同时考虑到建筑物和其他无人机的存在,并优化轨迹以减少能量消耗和噪音。通过流体流动模拟来表示无人机导航的环境,并将无人机训练为与城市环境交互的智能体。本文考虑了一个由二维流场表示的区域,其中包含障碍物,理想情况下代表从三维高保真数值模拟中提取的建筑物。所提出的使用PPO+LSTM单元的方法通过重现导航中一个简单但基本的问题,即Zermelo问题,得到了验证。Zermelo问题涉及一艘在湍流中航行的船只,从起点到目标位置,优化轨迹。目前的方法与简单的PPO和TD3算法相比,显示出显著的改进,PPO+LSTM训练策略的成功率(SR)为98.7%,崩溃率(CR)为0.1%,优于PPO(SR = 75.6%,CR=18.6%)和TD3(SR=77.4%和CR=14.5%)。这是迈向DRL策略的第一步,该策略将使用实时信号引导无人机在三维流场中导航,从而提高飞行时间的效率并避免车辆损坏。

🔬 方法详解

问题定义:论文旨在解决无人机在复杂城市环境中自主导航的问题,现有方法难以在降低能耗、减少噪音的同时,保证导航的成功率和安全性。现有方法通常依赖于预先设定的规则或简单的优化算法,难以适应动态变化的城市环境。

核心思路:论文的核心思路是将无人机导航问题建模为一个强化学习问题,通过让无人机在模拟的城市流场环境中与环境交互,学习最优的导航策略。使用深度强化学习算法,特别是PPO+LSTM,使无人机能够从经验中学习,并适应复杂的环境。

技术框架:整体框架包括以下几个主要部分:1) 构建二维流场环境,模拟城市环境中的风场和障碍物;2) 将无人机建模为强化学习智能体,定义状态空间、动作空间和奖励函数;3) 使用PPO+LSTM算法训练智能体,使其学习最优的导航策略;4) 在Zermelo问题上验证算法的性能。

关键创新:最重要的技术创新点在于将PPO算法与LSTM网络相结合。LSTM网络能够捕捉时间序列信息,使智能体能够更好地理解环境的动态变化,从而做出更明智的决策。与传统的PPO算法相比,PPO+LSTM能够更好地适应复杂的城市环境。

关键设计:论文使用PPO算法作为主要的强化学习算法,并引入LSTM网络来处理时间序列信息。奖励函数的设计考虑了多个因素,包括到达目标位置的时间、能量消耗和碰撞惩罚。网络结构包括一个LSTM层和多个全连接层。具体参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于PPO+LSTM的算法在Zermelo问题上取得了显著的性能提升。PPO+LSTM的成功率为98.7%,崩溃率为0.1%,而PPO的成功率为75.6%,崩溃率为18.6%,TD3的成功率为77.4%,崩溃率为14.5%。PPO+LSTM在成功率和安全性方面均优于其他两种算法。

🎯 应用场景

该研究成果可应用于城市无人机配送、环境监测、交通巡逻等领域。通过优化无人机的飞行轨迹,可以降低能源消耗、减少噪音污染,并提高无人机飞行的安全性和效率。未来,该方法有望扩展到三维环境,并结合实时信号,实现更智能、更高效的无人机自主导航。

📄 摘要(原文)

The increasing number of unmanned aerial vehicles (UAVs) in urban environments requires a strategy to minimize their environmental impact, both in terms of energy efficiency and noise reduction. In order to reduce these concerns, novel strategies for developing prediction models and optimization of flight planning, for instance through deep reinforcement learning (DRL), are needed. Our goal is to develop DRL algorithms capable of enabling the autonomous navigation of UAVs in urban environments, taking into account the presence of buildings and other UAVs, optimizing the trajectories in order to reduce both energetic consumption and noise. This is achieved using fluid-flow simulations which represent the environment in which UAVs navigate and training the UAV as an agent interacting with an urban environment. In this work, we consider a domain domain represented by a two-dimensional flow field with obstacles, ideally representing buildings, extracted from a three-dimensional high-fidelity numerical simulation. The presented methodology, using PPO+LSTM cells, was validated by reproducing a simple but fundamental problem in navigation, namely the Zermelo's problem, which deals with a vessel navigating in a turbulent flow, travelling from a starting point to a target location, optimizing the trajectory. The current method shows a significant improvement with respect to both a simple PPO and a TD3 algorithm, with a success rate (SR) of the PPO+LSTM trained policy of 98.7%, and a crash rate (CR) of 0.1%, outperforming both PPO (SR = 75.6%, CR=18.6%) and TD3 (SR=77.4% and CR=14.5%). This is the first step towards DRL strategies which will guide UAVs in a three-dimensional flow field using real-time signals, making the navigation efficient in terms of flight time and avoiding damages to the vehicle.