Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

📄 arXiv: 2602.24030v1 📥 PDF

作者: Fangyu Sun, Fanxing Li, Yu Hu, Linzuo Zhang, Yueqian Liu, Wenxian Yu, Danping Zou

分类: cs.RO

发布日期: 2026-02-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于课程强化学习的四旋翼无人机随机障碍竞速方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机竞速 课程强化学习 障碍物避障 领域随机化 自主导航

📋 核心要点

  1. 现有无人机竞速研究主要集中于无障碍环境,忽略了障碍物带来的感知和动力学挑战,导致实际飞行中鲁棒性不足。
  2. 论文提出一种基于视觉的课程强化学习框架,结合多阶段课程学习、领域随机化和多场景更新策略,训练鲁棒的无人机控制器。
  3. 实验结果表明,该方法在障碍物丰富的环境中,比现有方法实现了更快的单圈时间和更高的成功率。

📝 摘要(中文)

自主无人机竞速作为探索敏捷飞行极限的研究课题,吸引了越来越多的关注。然而,现有研究主要集中在无障碍赛道上,而障碍物带来的感知和动力学挑战仍未得到充分探索,导致实际飞行中的成功率较低且鲁棒性有限。为此,我们提出了一种新颖的基于视觉的课程强化学习框架,用于训练能够应对无人机竞速中未知障碍物的鲁棒控制器。我们结合了多阶段课程学习、领域随机化和多场景更新策略,以解决避障和穿越门框的冲突挑战。我们的端到端控制策略被实现为一个单一网络,允许四旋翼无人机在具有可变障碍物的环境中进行高速飞行。硬件在环和真实世界的实验表明,我们的方法比现有方法实现了更快的单圈时间和更高的成功率,有效地推进了在障碍物丰富的环境中进行无人机竞速。

🔬 方法详解

问题定义:论文旨在解决无人机在随机障碍物环境中进行高速竞速的问题。现有方法通常在无障碍或简单障碍环境中有效,但在复杂、未知的障碍物环境中,无人机难以实现快速、稳定的飞行,成功率和鲁棒性较低。现有方法在感知、控制和规划方面存在不足,难以应对动态变化的障碍物环境。

核心思路:论文的核心思路是利用课程强化学习,逐步引导无人机学习在复杂障碍物环境中进行竞速。通过精心设计的课程,从简单到复杂,逐步增加障碍物的难度和数量,使无人机能够逐步适应并掌握避障和穿越门框的技能。同时,结合领域随机化,增加训练数据的多样性,提高模型的泛化能力。

技术框架:整体框架包括环境模拟器、课程生成器、强化学习智能体和控制策略网络。环境模拟器负责生成包含随机障碍物的赛道环境。课程生成器根据无人机的学习进度,动态调整障碍物的难度和数量。强化学习智能体通过与环境交互,学习最优的控制策略。控制策略网络将视觉输入转换为控制指令,驱动无人机飞行。采用多场景更新策略,在多个不同的赛道环境中进行训练,进一步提高模型的鲁棒性。

关键创新:论文的关键创新在于将课程强化学习应用于无人机竞速,并结合领域随机化和多场景更新策略,有效解决了避障和穿越门框的冲突挑战。通过课程学习,无人机可以逐步适应复杂环境,提高学习效率和最终性能。端到端的控制策略网络简化了控制流程,提高了飞行速度。

关键设计:课程学习分为多个阶段,每个阶段的障碍物密度和复杂度逐渐增加。领域随机化包括障碍物的位置、大小、颜色等参数的随机化。控制策略网络采用卷积神经网络提取视觉特征,然后通过全连接层输出控制指令。损失函数包括奖励函数和惩罚函数,奖励函数鼓励无人机快速穿越门框,惩罚函数惩罚无人机与障碍物碰撞。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在硬件在环和真实世界实验中均取得了显著的性能提升。与现有方法相比,该方法实现了更快的单圈时间和更高的成功率。具体而言,在真实世界实验中,该方法比现有方法提高了约20%的成功率,单圈时间缩短了约15%。

🎯 应用场景

该研究成果可应用于无人机自主导航、物流配送、搜索救援等领域。通过训练无人机在复杂环境中进行自主飞行,可以提高无人机在实际应用中的效率和安全性。此外,该方法还可以推广到其他机器人领域,例如自动驾驶、移动机器人等,提高机器人在复杂环境中的适应能力。

📄 摘要(原文)

Autonomous drone racing has attracted increasing interest as a research topic for exploring the limits of agile flight. However, existing studies primarily focus on obstacle-free racetracks, while the perception and dynamic challenges introduced by obstacles remain underexplored, often resulting in low success rates and limited robustness in real-world flight. To this end, we propose a novel vision-based curriculum reinforcement learning framework for training a robust controller capable of addressing unseen obstacles in drone racing. We combine multi-stage cu rriculum learning, domain randomization, and a multi-scene updating strategy to address the conflicting challenges of obstacle avoidance and gate traversal. Our end-to-end control policy is implemented as a single network, allowing high-speed flight of quadrotors in environments with variable obstacles. Both hardware-in-the-loop and real-world experiments demonstrate that our method achieves faster lap times and higher success rates than existing approaches, effectively advancing drone racing in obstacle-rich environments. The video and code are available at: https://github.com/SJTU-ViSYS-team/CRL-Drone-Racing.