Vector Field Augmented Differentiable Policy Learning for Vision-Based Drone Racing

📄 arXiv: 2603.08019v1 📥 PDF

作者: Yang Su, Feng Yu, Yu Hu, Xinze Niu, Linzuo Zhang, Fangyu Sun, Danping Zou

分类: cs.RO

发布日期: 2026-03-09

备注: 8 pages, 7 figures, RAL 2026 March


💡 一句话要点

DiffRacing:提出向量场增强的可微策略学习框架,用于视觉无人机竞速。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机竞速 可微策略学习 向量场 强化学习 Sim-to-Real 自主导航 机器人控制

📋 核心要点

  1. 无人机竞速需要敏捷高速飞行和可靠的避障,现有方法难以将穿越门等目标转化为平滑可微的损失函数。
  2. DiffRacing将可微损失和向量场整合到训练中,提供连续梯度信号,平衡避障和高速穿越,并使用Delta Action Model补偿动力学差异。
  3. 实验表明,DiffRacing具有更高的样本效率、更快的收敛速度和更强的鲁棒性,验证了向量场增强梯度策略学习的有效性。

📝 摘要(中文)

本文提出了一种名为DiffRacing的向量场增强的可微策略学习框架,旨在解决复杂环境中自主无人机竞速的问题。该框架集成了可微损失和向量场,以提供连续且稳定的梯度信号,从而平衡避障和高速穿越门。此外,可微的Delta Action Model补偿了动力学失配,实现了高效的从仿真到现实的迁移,无需显式系统辨识。大量的仿真和真实世界实验表明,DiffRacing实现了卓越的样本效率、更快的收敛速度和稳健的飞行性能,证明了向量场可以通过特定任务的几何先验来增强传统的基于梯度的策略学习。

🔬 方法详解

问题定义:无人机在复杂环境中进行自主竞速,需要同时实现高速飞行、精准穿越目标门以及可靠的避障。现有的基于可微物理的策略学习方法在无人机敏捷飞行和四足运动等任务中表现出色,但直接应用于无人机竞速面临挑战,因为穿越目标门等关键目标难以表示为平滑、可微的损失函数,导致训练困难。

核心思路:DiffRacing的核心思路是利用向量场来增强传统基于梯度的策略学习。向量场提供了一种任务相关的几何先验,可以引导无人机朝着期望的方向运动,并提供连续且稳定的梯度信号,从而克服了目标函数不可微的问题。同时,引入可微的Delta Action Model来补偿仿真环境与真实环境之间的动力学差异,提高了sim-to-real的迁移效率。

技术框架:DiffRacing的整体框架包含以下几个主要模块:1) 基于可微物理的无人机动力学模型;2) 策略网络,用于生成无人机的控制指令;3) 向量场模块,提供任务相关的几何先验;4) 可微损失函数,用于评估无人机的飞行性能;5) Delta Action Model,用于补偿动力学差异。训练过程中,无人机在仿真环境中与环境交互,策略网络根据当前状态生成控制指令,向量场提供额外的引导信息,可微损失函数计算梯度,并反向传播更新策略网络和Delta Action Model的参数。

关键创新:DiffRacing最重要的创新点在于将向量场引入到可微策略学习框架中。向量场提供了一种任务相关的几何先验,可以有效地引导无人机朝着期望的方向运动,并提供连续且稳定的梯度信号,解决了传统方法中目标函数不可微的问题。此外,可微的Delta Action Model也是一个重要的创新,它可以有效地补偿仿真环境与真实环境之间的动力学差异,提高了sim-to-real的迁移效率。

关键设计:向量场的设计需要根据具体的任务进行调整。例如,在无人机竞速中,向量场可以指向下一个目标门的方向,并根据无人机与目标门之间的距离和角度进行调整。损失函数的设计需要综合考虑多个因素,包括穿越目标门的精度、飞行速度、避障距离等。Delta Action Model通常采用一个小的神经网络,用于预测仿真环境与真实环境之间的控制指令差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffRacing在仿真和真实世界实验中均表现出色。在仿真环境中,DiffRacing的样本效率比传统方法提高了显著,收敛速度更快。在真实世界实验中,DiffRacing成功地实现了无人机在复杂环境中的自主竞速,并表现出良好的鲁棒性,验证了其sim-to-real的迁移能力。

🎯 应用场景

DiffRacing具有广泛的应用前景,可应用于自主无人机竞速、无人机物流、无人机巡检等领域。该研究成果可以提高无人机在复杂环境中的自主飞行能力,降低开发成本,并加速无人机技术的商业化进程。未来,该方法还可以扩展到其他机器人领域,例如自动驾驶、机器人导航等。

📄 摘要(原文)

Autonomous drone racing in complex environments requires agile, high-speed flight while maintaining reliable obstacle avoidance. Differentiable-physics-based policy learning has recently demonstrated high sample efficiency and remarkable performance across various tasks, including agile drone flight and quadruped locomotion. However, applying such methods to drone racing remains difficult, as key objective like gate traversal are inherently hard to express as smooth, differentiable losses. To address these challenges, we propose DiffRacing, a novel vector field-augmented differentiable policy learning framework. DiffRacing integrates differentiable losses and vector fields into the training process to provide continuous and stable gradient signals, balancing obstacle avoidance and high-speed gate traversal. In addition, a differentiable Delta Action Model compensates for dynamics mismatch, enabling efficient sim-to-real transfer without explicit system identification. Extensive simulation and real-world experiments demonstrate that DiffRacing achieves superior sample efficiency, faster convergence, and robust flight performance, thereby demonstrating that vector fields can augment traditional gradient-based policy learning with a task-specific geometric prior.