Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs

作者: Haochen Chai, Meimei Su, Yang Lyu, Zhunga Liu, Chunhui Zhao, Quan Pan

分类: cs.RO, cs.CV

发布日期: 2024-11-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于逆向PPO的单目视觉固定翼无人机避障方法，适用于未知环境下的高速飞行。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 固定翼无人机 单目视觉 深度强化学习 避障 逆向PPO 边缘计算 自主导航

📋 核心要点

传统避障系统依赖先验地图或复杂传感器，在未知低空环境和小型无人机平台上存在局限性。
提出一种基于单目视觉和深度强化学习的轻量级避障系统，无需先验知识，适用于高速飞行的固定翼无人机。
实验结果表明，该方法在避障效率和轨迹平滑性方面优于其他方法，并验证了在边缘设备上部署的可行性。

📝 摘要（中文）

本文提出了一种基于深度强化学习(DRL)的轻量级无人机避障系统，该系统仅使用机载视觉传感器，即可使固定翼无人机在超过30米/秒的巡航速度下避开未知障碍物。该系统采用精简网络架构的单帧图像深度推断模块，确保实时障碍物检测，并针对边缘计算设备进行了优化。此外，设计了一种具有新型奖励函数的强化学习控制器，以平衡目标接近和飞行轨迹平滑性，满足固定翼无人机平台的特定动态约束和稳定性要求。引入自适应熵调整机制，以缓解DRL中固有的探索-利用权衡，提高训练收敛性和避障成功率。大量的软件在环和硬件在环实验表明，所提出的框架在避障效率和飞行轨迹平滑性方面优于其他方法，并证实了该算法在边缘设备上实现的可行性。

🔬 方法详解

问题定义：固定翼无人机在未知低空环境中，仅依靠单目视觉传感器，如何实现高速（>30m/s）下的自主避障？现有方法通常依赖于先验地图或复杂的传感器，这限制了它们在未知环境和小型无人机平台上的应用。此外，固定翼无人机的动态特性和稳定性要求也增加了避障的难度。

核心思路：利用深度强化学习(DRL)直接从单目视觉图像中学习避障策略。通过设计合适的奖励函数来平衡目标接近和飞行轨迹平滑性，并引入自适应熵调整机制来改善探索-利用的平衡，从而提高训练的收敛速度和避障成功率。

技术框架：该系统主要包含两个模块：单帧图像深度推断模块和强化学习控制器。首先，单帧图像深度推断模块负责从单目图像中估计场景的深度信息，从而实现障碍物检测。然后，强化学习控制器根据深度信息和无人机的状态，生成控制指令，控制无人机进行避障。整体流程是从视觉输入到深度估计，再到策略学习和动作执行。

关键创新：主要创新点在于：1) 提出了一个轻量级的单帧图像深度推断模块，适用于边缘计算设备；2) 设计了一个新型的奖励函数，能够平衡目标接近和飞行轨迹平滑性，满足固定翼无人机的动态约束；3) 引入了自适应熵调整机制，缓解了DRL中探索-利用的权衡。与现有方法相比，该方法无需先验地图或复杂的传感器，能够直接从视觉输入中学习避障策略。

关键设计：单帧图像深度推断模块采用了精简的网络架构，以保证实时性。强化学习控制器使用了逆向PPO算法，并设计了包含目标接近奖励、轨迹平滑奖励和碰撞惩罚的奖励函数。自适应熵调整机制根据训练过程中的熵值动态调整熵正则化系数，以平衡探索和利用。

🖼️ 关键图片

📊 实验亮点

软件在环和硬件在环实验表明，该方法在避障效率和飞行轨迹平滑性方面优于其他方法。具体来说，该方法能够在超过30m/s的巡航速度下成功避开未知障碍物，并且飞行轨迹更加平滑，减少了不必要的机动。此外，实验还验证了该算法在边缘设备上实现的可行性，为实际应用奠定了基础。

🎯 应用场景

该研究成果可应用于低空经济和城市空中交通(UAM)领域，例如物流配送、环境监测、巡检等。通过降低对先验知识和复杂传感器的依赖，可以降低无人机系统的成本和复杂性，使其更易于部署和应用。此外，该方法还可以推广到其他类型的无人机和机器人平台上，实现更广泛的自主导航和避障能力。

📄 摘要（原文）

Fixed-wing Unmanned Aerial Vehicles (UAVs) are one of the most commonly used platforms for the burgeoning Low-altitude Economy (LAE) and Urban Air Mobility (UAM), due to their long endurance and high-speed capabilities. Classical obstacle avoidance systems, which rely on prior maps or sophisticated sensors, face limitations in unknown low-altitude environments and small UAV platforms. In response, this paper proposes a lightweight deep reinforcement learning (DRL) based UAV collision avoidance system that enables a fixed-wing UAV to avoid unknown obstacles at cruise speed over 30m/s, with only onboard visual sensors. The proposed system employs a single-frame image depth inference module with a streamlined network architecture to ensure real-time obstacle detection, optimized for edge computing devices. After that, a reinforcement learning controller with a novel reward function is designed to balance the target approach and flight trajectory smoothness, satisfying the specific dynamic constraints and stability requirements of a fixed-wing UAV platform. An adaptive entropy adjustment mechanism is introduced to mitigate the exploration-exploitation trade-off inherent in DRL, improving training convergence and obstacle avoidance success rates. Extensive software-in-the-loop and hardware-in-the-loop experiments demonstrate that the proposed framework outperforms other methods in obstacle avoidance efficiency and flight trajectory smoothness and confirm the feasibility of implementing the algorithm on edge devices. The source code is publicly available at \url{https://github.com/ch9397/FixedWing-MonoPPO}.

Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理