Autonomous FPV Flight with Translational Optical Flow and Uncertainty Mask

📄 arXiv: 2606.09088v1 📥 PDF

作者: Yang Deng, Yu Hu, Feng Yu, Linzuo Zhang, Danping Zou

分类: cs.RO

发布日期: 2026-06-08


💡 一句话要点

提出基于平移光流和不确定性掩码的自主FPV飞行方法以解决复杂环境中的飞行挑战

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 自主飞行 光流估计 不确定性掩码 四旋翼无人机 复杂环境 深度学习 控制策略

📋 核心要点

  1. 现有方法在复杂环境中难以有效区分障碍物引起的光流与自我运动背景流,导致飞行灵活性和鲁棒性不足。
  2. 本文提出将光流分解为平移和旋转分量,仅使用平移光流,并引入不确定性掩码以突出障碍物结构。
  3. 实验结果表明,所提系统在模拟中实现了最高13.91 m/s的飞行速度,真实环境中达到11.79 m/s,成功率为93.3%。

📝 摘要(中文)

在复杂环境中,利用单目RGB相机进行自主FPV四旋翼飞行仍然是一个基本挑战。近期研究表明,使用光流作为神经网络的输入可以实现杂乱场景中的端到端自主飞行。然而,从光流估计中提取最相关的信息是限制灵活性和鲁棒性的关键瓶颈。现有方法难以将障碍物引起的光流与自我运动背景流分离,并且在扩展焦点(FoE)附近信噪比低。为了解决这些问题,本文将光流分解为平移和旋转分量,仅利用平移光流来捕捉场景几何和深度线索。此外,我们引入了一个不确定性掩码,该掩码源于前向和后向光流估计之间的不一致性,突出显示障碍物结构。通过在可微分仿真框架中训练控制策略,我们的系统在模拟和真实森林环境中进行了广泛实验,验证了其有效性。

🔬 方法详解

问题定义:本文旨在解决在复杂环境中利用单目RGB相机进行自主FPV飞行的挑战,现有方法在光流估计中难以有效分离障碍物引起的光流与自我运动背景流,导致信号噪声比低,影响飞行性能。

核心思路:论文的核心思路是将光流分解为平移和旋转分量,专注于平移光流以捕捉场景几何和深度信息,同时引入不确定性掩码来识别障碍物结构,从而提高飞行的灵活性和鲁棒性。

技术框架:整体架构包括光流估计模块、平移光流提取模块和不确定性掩码生成模块,最后将这些信息输入到一个在可微分仿真框架中训练的控制策略中,实现感知与控制的高效优化。

关键创新:最重要的技术创新在于光流的分解方法和不确定性掩码的引入,这与现有方法的本质区别在于能够更有效地提取与障碍物相关的信息,提升飞行性能。

关键设计:在参数设置上,采用了适应性损失函数以优化光流估计的准确性,网络结构上使用了卷积神经网络(CNN)来处理光流数据,确保了信息提取的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提系统在模拟环境中实现了最高13.91 m/s的飞行速度,而在真实环境中达到了11.79 m/s,成功率高达93.3%。这一性能几乎是之前单目RGB光流无人机障碍物规避系统6 m/s飞行速度的两倍,显著提升了飞行效率和可靠性。

🎯 应用场景

该研究的潜在应用领域包括无人机自主导航、搜索与救援、环境监测等。在复杂环境中,能够实现高效的自主飞行将极大提升无人机的实用性和安全性,推动相关技术的商业化和普及。未来,该方法可能会在更多动态和复杂场景中得到应用,进一步拓展无人机的应用范围。

📄 摘要(原文)

Autonomous FPV quadrotor flight in complex environments using a monocular RGB camera as the sole exteroceptive sensor remains a fundamental challenge. Recent research has shown that using optical flow as the input of a neural network can achieve end-to-end autonomous flight in cluttered scenes. However, extracting the most relevant information from the flow estimation is the key bottleneck limiting agility and robustness. Existing methods struggle to disentangle obstacle-induced optical flow from the ego-motion background flow and suffer from low signal-to-noise ratios near the focus of expansion (FoE). To address these issues, we decompose the optical flow into translational and rotational components and utilize only the translational flow, which captures scene geometry and depth cues. In addition, we introduce an uncertainty mask derived from inconsistencies between forward and backward flow estimates. This mask highlights obstacle structures, including those within the FoE region. Both cues are fed to a control policy trained in a differentiable simulation framework, which enables efficient first-order optimization across perception and control. We validate our approach through extensive experiments in both simulated and real-world forest environments. The proposed system achieves robust flight at speeds of up to 13.91 m/s in simulation and 11.79 m/s in real-world tests, with a 93.3\% success rate over 30 real-world trials, nearly doubling the previously reported 6 m/s real-world speed of the monocular-RGB optical-flow UAV obstacle avoidance system.