Quadrotor Navigation using Reinforcement Learning with Privileged Information

📄 arXiv: 2509.08177v1 📥 PDF

作者: Jonathan Lee, Abhishek Rathod, Kshitij Goel, John Stecklein, Wennie Tabib

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-09-09


💡 一句话要点

提出一种基于强化学习和特权信息的四旋翼导航方法,解决复杂环境下的避障问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 四旋翼导航 强化学习 特权信息 到达时间图 自主导航

📋 核心要点

  1. 现有基于学习的导航方法在复杂环境下(如大型障碍物遮挡目标)表现不佳,导航成功率低。
  2. 利用到达时间(ToA)图作为特权信息,并设计偏航对齐损失,引导四旋翼绕过大型障碍物。
  3. 在逼真仿真和真实室外环境中验证,导航成功率达86%,优于基线方法,并成功完成多次飞行测试。

📝 摘要(中文)

本文提出了一种基于强化学习的四旋翼导航方法,该方法利用高效的可微仿真、新颖的损失函数和特权信息,实现在大型障碍物周围的导航。现有的基于学习的方法在狭窄障碍物的场景中表现良好,但在目标位置被大型墙壁或地形阻挡时会遇到困难。相比之下,该方法利用到达时间(ToA)图作为特权信息和偏航对齐损失来引导机器人绕过大型障碍物。该策略在包含大型障碍物、尖角和死胡同的照片级真实感仿真环境中进行了评估。我们的方法实现了 86% 的成功率,并且优于基线策略 34%。我们将该策略部署在定制的四旋翼飞行器上,在白天和夜晚的室外杂乱环境中进行了验证。该策略在 20 次飞行中得到验证,以高达 4 米/秒的速度飞行了 589 米而没有发生碰撞。

🔬 方法详解

问题定义:现有基于学习的四旋翼导航方法在面对大型障碍物遮挡目标时,难以有效规划路径,导致导航成功率降低。尤其是在包含尖角、死胡同等复杂地形的环境中,四旋翼容易陷入困境,无法到达目标点。现有方法缺乏对全局环境信息的有效利用,难以应对复杂场景。

核心思路:论文的核心思路是利用强化学习训练一个导航策略,并引入“特权信息”——到达时间(ToA)图,辅助策略学习。ToA图提供了从当前位置到目标点的全局时间信息,帮助四旋翼更好地理解环境,绕过大型障碍物。此外,设计偏航对齐损失,引导四旋翼调整姿态,更好地适应环境。

技术框架:该方法采用强化学习框架,训练一个深度神经网络作为导航策略。整体流程包括:1)在仿真环境中生成训练数据;2)利用ToA图作为特权信息,输入神经网络;3)通过强化学习算法(具体算法未知)优化策略;4)利用偏航对齐损失函数,约束四旋翼的姿态;5)在仿真和真实环境中进行测试。

关键创新:该方法最重要的创新点在于引入了ToA图作为特权信息。与传统的仅依赖局部传感器信息的导航方法不同,ToA图提供了全局环境信息,帮助四旋翼更好地理解环境,绕过大型障碍物。此外,偏航对齐损失的设计也提高了四旋翼在复杂环境中的适应能力。

关键设计:论文中关键的设计包括:1)ToA图的生成方式(具体方法未知);2)神经网络的结构(未知,但应包含卷积层和全连接层);3)强化学习算法的选择(未知);4)偏航对齐损失函数的具体形式(未知,但应与四旋翼的姿态角相关);5)仿真环境的构建(需要包含大型障碍物、尖角和死胡同等复杂地形)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在照片级真实感仿真环境中实现了86%的导航成功率,比基线策略提高了34%。在真实的室外环境中,该策略在20次飞行中成功飞行了589米,速度高达4米/秒,且没有发生碰撞。这些实验结果表明,该方法具有良好的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于无人机自主导航、物流配送、灾害救援、环境监测等领域。通过提升无人机在复杂环境下的导航能力,可以使其在更广泛的场景中发挥作用,例如在城市环境中进行包裹配送,在灾区进行搜索救援,或在危险环境中进行环境监测。该研究具有重要的实际应用价值和潜在的社会效益。

📄 摘要(原文)

This paper presents a reinforcement learning-based quadrotor navigation method that leverages efficient differentiable simulation, novel loss functions, and privileged information to navigate around large obstacles. Prior learning-based methods perform well in scenes that exhibit narrow obstacles, but struggle when the goal location is blocked by large walls or terrain. In contrast, the proposed method utilizes time-of-arrival (ToA) maps as privileged information and a yaw alignment loss to guide the robot around large obstacles. The policy is evaluated in photo-realistic simulation environments containing large obstacles, sharp corners, and dead-ends. Our approach achieves an 86% success rate and outperforms baseline strategies by 34%. We deploy the policy onboard a custom quadrotor in outdoor cluttered environments both during the day and night. The policy is validated across 20 flights, covering 589 meters without collisions at speeds up to 4 m/s.