Zero-Shot Metric Depth Estimation via Monocular Visual-Inertial Rescaling for Autonomous Aerial Navigation

📄 arXiv: 2509.08159v1 📥 PDF

作者: Steven Yang, Xiaoyu Tian, Kshitij Goel, Wennie Tabib

分类: cs.RO, cs.AI

发布日期: 2025-09-09


💡 一句话要点

提出基于视觉惯性重缩放的零样本单目深度估计方法,用于自主飞行器导航

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 视觉惯性导航 零样本学习 自主导航 无人机 度量深度 重缩放 运动规划

📋 核心要点

  1. 现有单目深度估计方法在自主飞行器避障中,通常需要大量数据微调或依赖重型传感器,限制了其应用。
  2. 论文提出零样本重缩放策略,利用视觉惯性导航系统生成的稀疏3D特征图,从相对深度估计获得度量深度。
  3. 实验表明,基于单调样条拟合的方法性能最佳,并在实际四旋翼飞行器上实现了15Hz的度量深度估计和成功避障。

📝 摘要(中文)

本文提出了一种从单目RGB图像和惯性测量单元(IMU)预测度量深度的方法。为了在自主飞行过程中实现避障,先前的工作要么依赖于重型传感器(例如,激光雷达或立体相机),要么依赖于数据密集型和领域特定的单目度量深度估计方法的微调。相比之下,我们提出了几种轻量级的零样本重缩放策略,通过使用视觉惯性导航系统创建的稀疏3D特征图,从相对深度估计中获得度量深度。我们比较了这些策略在不同仿真环境中的准确性。性能最佳的方法,即利用单调样条拟合的方法,已在计算受限的四旋翼飞行器上进行实际部署。我们获得了15 Hz的板载度量深度估计,并在将所提出的方法与基于运动原语的规划器集成后,展示了成功的避障。

🔬 方法详解

问题定义:论文旨在解决单目视觉在自主飞行器上进行度量深度估计的问题。现有方法要么需要大量的特定领域数据进行微调,这限制了其泛化能力;要么依赖于激光雷达或立体相机等重型传感器,增加了飞行器的重量和功耗,不适用于资源受限的场景。

核心思路:论文的核心思路是利用视觉惯性导航系统(VINS)提供的稀疏3D特征点云作为尺度信息,对单目深度估计结果进行重缩放,从而获得度量深度。这种方法避免了对特定环境的训练数据的依赖,实现了零样本的度量深度估计。

技术框架:整体框架包括以下几个主要步骤:1) 使用单目图像估计相对深度;2) 利用VINS构建稀疏3D特征点云;3) 将相对深度图与稀疏3D点云对齐;4) 使用重缩放策略(如单调样条拟合)将相对深度转换为度量深度。

关键创新:论文的关键创新在于提出了轻量级的零样本重缩放策略,该策略能够有效地利用VINS提供的稀疏几何信息,将单目相对深度估计转换为度量深度估计,而无需额外的训练数据或复杂的网络结构。

关键设计:论文比较了多种重缩放策略,包括线性缩放、中值缩放和单调样条拟合。其中,单调样条拟合表现最佳,因为它能够更好地处理深度估计中的非线性误差。此外,论文还详细描述了如何将该方法集成到基于运动原语的规划器中,以实现自主避障。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在仿真环境中对多种重缩放策略进行了比较,结果表明,基于单调样条拟合的方法在精度方面表现最佳。此外,该方法还在实际四旋翼飞行器上进行了部署,实现了15Hz的板载度量深度估计,并成功地与运动原语规划器集成,实现了自主避障。

🎯 应用场景

该研究成果可广泛应用于自主无人机导航、机器人避障、增强现实等领域。特别是在资源受限的环境中,例如室内导航或小型无人机,该方法能够以较低的计算成本和传感器需求实现可靠的深度感知,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

This paper presents a methodology to predict metric depth from monocular RGB images and an inertial measurement unit (IMU). To enable collision avoidance during autonomous flight, prior works either leverage heavy sensors (e.g., LiDARs or stereo cameras) or data-intensive and domain-specific fine-tuning of monocular metric depth estimation methods. In contrast, we propose several lightweight zero-shot rescaling strategies to obtain metric depth from relative depth estimates via the sparse 3D feature map created using a visual-inertial navigation system. These strategies are compared for their accuracy in diverse simulation environments. The best performing approach, which leverages monotonic spline fitting, is deployed in the real-world on a compute-constrained quadrotor. We obtain on-board metric depth estimates at 15 Hz and demonstrate successful collision avoidance after integrating the proposed method with a motion primitives-based planner.