Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

作者: Fangyu Sun, Fanxing Li, Yu Hu, Linzuo Zhang, Yueqian Liu, Wenxian Yu, Danping Zou

分类: cs.RO

发布日期: 2026-02-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于课程强化学习的四旋翼无人机随机障碍竞速方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 无人机竞速 课程强化学习 障碍物避障 领域随机化 自主导航

📋 核心要点

现有无人机竞速研究主要集中于无障碍环境，忽略了障碍物带来的感知和动力学挑战，导致实际飞行中鲁棒性不足。
论文提出一种基于视觉的课程强化学习框架，结合多阶段课程学习、领域随机化和多场景更新策略，训练鲁棒的无人机控制器。
实验结果表明，该方法在障碍物丰富的环境中，比现有方法实现了更快的单圈时间和更高的成功率。

📝 摘要（中文）

自主无人机竞速作为探索敏捷飞行极限的研究课题，吸引了越来越多的关注。然而，现有研究主要集中在无障碍赛道上，而障碍物带来的感知和动力学挑战仍未得到充分探索，导致实际飞行中的成功率较低且鲁棒性有限。为此，我们提出了一种新颖的基于视觉的课程强化学习框架，用于训练能够应对无人机竞速中未知障碍物的鲁棒控制器。我们结合了多阶段课程学习、领域随机化和多场景更新策略，以解决避障和穿越门框的冲突挑战。我们的端到端控制策略被实现为一个单一网络，允许四旋翼无人机在具有可变障碍物的环境中进行高速飞行。硬件在环和真实世界的实验表明，我们的方法比现有方法实现了更快的单圈时间和更高的成功率，有效地推进了在障碍物丰富的环境中进行无人机竞速。

🔬 方法详解

问题定义：论文旨在解决无人机在随机障碍物环境中进行高速竞速的问题。现有方法通常在无障碍或简单障碍环境中有效，但在复杂、未知的障碍物环境中，无人机难以实现快速、稳定的飞行，成功率和鲁棒性较低。现有方法在感知、控制和规划方面存在不足，难以应对动态变化的障碍物环境。

核心思路：论文的核心思路是利用课程强化学习，逐步引导无人机学习在复杂障碍物环境中进行竞速。通过精心设计的课程，从简单到复杂，逐步增加障碍物的难度和数量，使无人机能够逐步适应并掌握避障和穿越门框的技能。同时，结合领域随机化，增加训练数据的多样性，提高模型的泛化能力。

技术框架：整体框架包括环境模拟器、课程生成器、强化学习智能体和控制策略网络。环境模拟器负责生成包含随机障碍物的赛道环境。课程生成器根据无人机的学习进度，动态调整障碍物的难度和数量。强化学习智能体通过与环境交互，学习最优的控制策略。控制策略网络将视觉输入转换为控制指令，驱动无人机飞行。采用多场景更新策略，在多个不同的赛道环境中进行训练，进一步提高模型的鲁棒性。

关键创新：论文的关键创新在于将课程强化学习应用于无人机竞速，并结合领域随机化和多场景更新策略，有效解决了避障和穿越门框的冲突挑战。通过课程学习，无人机可以逐步适应复杂环境，提高学习效率和最终性能。端到端的控制策略网络简化了控制流程，提高了飞行速度。

关键设计：课程学习分为多个阶段，每个阶段的障碍物密度和复杂度逐渐增加。领域随机化包括障碍物的位置、大小、颜色等参数的随机化。控制策略网络采用卷积神经网络提取视觉特征，然后通过全连接层输出控制指令。损失函数包括奖励函数和惩罚函数，奖励函数鼓励无人机快速穿越门框，惩罚函数惩罚无人机与障碍物碰撞。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在硬件在环和真实世界实验中均取得了显著的性能提升。与现有方法相比，该方法实现了更快的单圈时间和更高的成功率。具体而言，在真实世界实验中，该方法比现有方法提高了约20%的成功率，单圈时间缩短了约15%。

🎯 应用场景

该研究成果可应用于无人机自主导航、物流配送、搜索救援等领域。通过训练无人机在复杂环境中进行自主飞行，可以提高无人机在实际应用中的效率和安全性。此外，该方法还可以推广到其他机器人领域，例如自动驾驶、移动机器人等，提高机器人在复杂环境中的适应能力。

📄 摘要（原文）

Autonomous drone racing has attracted increasing interest as a research topic for exploring the limits of agile flight. However, existing studies primarily focus on obstacle-free racetracks, while the perception and dynamic challenges introduced by obstacles remain underexplored, often resulting in low success rates and limited robustness in real-world flight. To this end, we propose a novel vision-based curriculum reinforcement learning framework for training a robust controller capable of addressing unseen obstacles in drone racing. We combine multi-stage cu rriculum learning, domain randomization, and a multi-scene updating strategy to address the conflicting challenges of obstacle avoidance and gate traversal. Our end-to-end control policy is implemented as a single network, allowing high-speed flight of quadrotors in environments with variable obstacles. Both hardware-in-the-loop and real-world experiments demonstrate that our method achieves faster lap times and higher success rates than existing approaches, effectively advancing drone racing in obstacle-rich environments. The video and code are available at: https://github.com/SJTU-ViSYS-team/CRL-Drone-Racing.

Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理