Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation

📄 arXiv: 2604.02779 📥 PDF

作者: Linzuo Zhang, Yu Hu, Feng Yu, Yang Deng, Wenxian Yu, Danping Zou

分类: cs.RO

发布日期: 2026-04-06


💡 一句话要点

提出基于视觉和可微仿真的无人机复杂缝隙穿越端到端学习框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 无人机导航 端到端学习 可微仿真 视觉感知 缝隙穿越

📋 核心要点

  1. 传统方法依赖于显式的缝隙提取和测量,而端到端方法通常假设规则形状的缝隙,导致泛化性差和实用性有限。
  2. 论文提出了一种基于视觉的端到端学习框架,利用可微仿真和辅助预测模块,使无人机能够穿越复杂和不规则的缝隙。
  3. 实验结果表明,该方法在仿真和真实环境中都表现出良好的有效性、泛化能力和鲁棒性,能够安全稳定地穿越复杂缝隙。

📝 摘要(中文)

本文提出了一种完全基于视觉的端到端框架,该框架直接将深度图像映射到控制指令,使无人机能够在未见环境中穿越复杂的缝隙。该框架在特殊欧几里得群SE(3)中运行,其中位置和方向紧密耦合,利用可微仿真、停止梯度算子和双峰初始化分布来实现通过连续缝隙的稳定穿越。两个辅助预测模块——缝隙穿越成功分类器和可穿越性预测器——进一步增强了连续导航和安全性。大量的仿真和真实世界实验证明了该方法的有效性、泛化能力和实际鲁棒性。

🔬 方法详解

问题定义:现有无人机穿越缝隙的方法,要么依赖于人工设计的特征和规则,难以适应复杂环境;要么基于端到端学习,但对缝隙形状有较强假设,泛化能力不足。因此,需要一种能够直接从视觉输入学习,并能适应不规则缝隙的无人机穿越方法。

核心思路:论文的核心思路是利用可微仿真,将环境交互过程纳入端到端学习框架中。通过可微仿真,可以计算控制指令对无人机状态的影响,从而优化控制策略。同时,引入辅助预测模块,提高导航的连续性和安全性。

技术框架:整体框架包括深度图像输入、控制指令输出以及中间的可微仿真模块。具体流程为:首先,无人机获取深度图像;然后,深度图像输入到神经网络中,输出控制指令;接着,控制指令输入到可微仿真器中,仿真器模拟无人机的运动过程,并计算损失函数;最后,损失函数反向传播,更新神经网络的参数。此外,还包括缝隙穿越成功分类器和可穿越性预测器两个辅助模块。

关键创新:该论文的关键创新在于将可微仿真引入到无人机穿越缝隙的端到端学习中。通过可微仿真,可以有效地学习控制策略,并提高泛化能力。此外,双峰初始化分布和停止梯度算子的使用,进一步提高了训练的稳定性和效率。

关键设计:论文使用了深度卷积神经网络作为控制策略的学习器。损失函数包括位置损失、姿态损失和碰撞损失。为了提高训练的稳定性,使用了双峰初始化分布,并引入了停止梯度算子,避免梯度爆炸。缝隙穿越成功分类器和可穿越性预测器分别用于判断是否成功穿越缝隙和预测前方环境的可穿越性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在仿真和真实环境中都取得了显著的成果。在仿真环境中,该方法能够成功穿越各种形状和大小的缝隙,并且具有很高的成功率。在真实环境中,该方法也能够稳定地穿越缝隙,并且表现出良好的鲁棒性。与传统的规划和控制方法相比,该方法具有更高的效率和更好的泛化能力。

🎯 应用场景

该研究成果可应用于无人机自主巡检、搜救和灾害响应等领域。例如,在建筑物巡检中,无人机可以利用该方法穿越狭窄的通道和缝隙,完成对建筑物内部结构的检查。在搜救任务中,无人机可以穿越废墟中的缝隙,寻找幸存者。在灾害响应中,无人机可以穿越倒塌的建筑物,评估灾情。

📄 摘要(原文)

-Navigation through narrow and irregular gaps is an essential skill in autonomous drones for applications such as inspection, search-and-rescue, and disaster response. However, traditional planning and control methods rely on explicit gap extraction and measurement, while recent end-to-end approaches often assume regularly shaped gaps, leading to poor generalization and limited practicality. In this work, we present a fully vision-based, end-to-end framework that maps depth images directly to control commands, enabling drones to traverse complex gaps within unseen environments. Operating in the Special Euclidean group SE(3), where position and orientation are tightly coupled, the framework leverages differentiable simulation, a Stop-Gradient operator, and a Bimodal Initialization Distribution to achieve stable traversal through consecutive gaps. Two auxiliary prediction modules-a gap-crossing success classifier and a traversability predictor-further enhance continuous navigation and safety. Extensive simulation and real-world experiments demonstrate the approach's effectiveness, generalization capability, and practical robustness.