Zero-Shot Metric Depth Estimation via Monocular Visual-Inertial Rescaling for Autonomous Aerial Navigation

📄 arXiv: 2509.08159v1 📥 PDF

作者: Steven Yang, Xiaoyu Tian, Kshitij Goel, Wennie Tabib

分类: cs.RO, cs.AI

发布日期: 2025-09-09


💡 一句话要点

提出基于视觉惯性重标定的零样本单目深度估计方法,用于自主飞行器避障

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 视觉惯性里程计 零样本学习 自主导航 无人机 度量深度 重标定

📋 核心要点

  1. 现有单目深度估计方法在自主飞行器避障中,通常需要大量数据进行领域特定微调或依赖重型传感器,限制了其应用。
  2. 该论文提出了一种轻量级的零样本重标定策略,利用视觉惯性导航系统生成的稀疏3D特征图,将相对深度估计转换为度量深度。
  3. 实验表明,该方法在仿真和真实环境中均表现良好,并在计算资源受限的四旋翼飞行器上实现了15Hz的度量深度估计和成功的避障。

📝 摘要(中文)

本文提出了一种仅使用单目RGB图像和惯性测量单元(IMU)预测度量深度的方法。为了在自主飞行过程中实现避障,现有方法通常依赖于重型传感器(如激光雷达或立体相机),或者对单目度量深度估计方法进行数据密集型和领域特定的微调。相比之下,我们提出几种轻量级的零样本重标定策略,通过使用视觉惯性导航系统创建的稀疏3D特征图,从相对深度估计中获得度量深度。我们比较了这些策略在不同仿真环境中的准确性。性能最佳的方法,即利用单调样条拟合的方法,被部署在计算资源受限的四旋翼飞行器上。我们获得了15 Hz的板载度量深度估计,并在将所提出的方法与基于运动原语的规划器集成后,展示了成功的避障。

🔬 方法详解

问题定义:论文旨在解决自主飞行器在计算资源受限的情况下,如何仅使用单目视觉和IMU实现准确的度量深度估计,从而进行可靠的避障。现有方法要么依赖于昂贵且笨重的传感器(如激光雷达),要么需要大量特定领域的数据来微调单目深度估计模型,这限制了其在资源受限平台上的应用。

核心思路:核心思路是利用视觉惯性里程计(VIO)提供的稀疏3D特征点云作为尺度信息,对单目深度估计网络输出的相对深度图进行重标定,从而得到度量深度。由于VIO本身可以提供较为准确的尺度信息,因此无需额外的深度传感器或大量训练数据。

技术框架:整体流程如下:首先,使用单目相机和IMU数据运行VIO算法,生成稀疏的3D特征点云。然后,使用单目深度估计网络预测场景的相对深度图。接着,利用VIO提供的3D点云信息,对相对深度图进行重标定,得到度量深度图。最后,将度量深度图输入到运动规划器中,实现自主避障。

关键创新:关键创新在于提出了一种零样本的度量深度重标定方法,无需任何额外的深度数据或领域特定的微调。该方法利用VIO提供的稀疏3D信息,有效地将单目深度估计的相对尺度转换为绝对尺度。

关键设计:论文比较了几种重标定策略,包括线性回归、RANSAC和单调样条拟合。最终选择了单调样条拟合,因为它能够更好地处理深度估计中的非线性误差,并保证深度值的单调性。具体而言,首先将VIO提供的3D点投影到图像平面上,然后将这些点的深度值与单目深度估计网络预测的深度值进行匹配。接着,使用单调样条拟合建立两者之间的映射关系,从而实现深度值的重标定。

📊 实验亮点

该方法在真实四旋翼飞行器上进行了实验验证,实现了15Hz的板载度量深度估计,并成功完成了自主避障任务。与需要大量数据训练的深度估计方法相比,该方法无需任何额外的训练数据,具有很强的泛化能力。在仿真环境中,该方法也表现出良好的性能,验证了其在不同场景下的适用性。

🎯 应用场景

该研究成果可广泛应用于自主无人机、机器人导航、增强现实等领域。特别是在资源受限的移动平台上,该方法能够以较低的成本实现可靠的深度感知和避障功能。未来,该技术有望进一步推广到其他需要轻量级深度估计的场景,例如移动机器人、可穿戴设备等。

📄 摘要(原文)

This paper presents a methodology to predict metric depth from monocular RGB images and an inertial measurement unit (IMU). To enable collision avoidance during autonomous flight, prior works either leverage heavy sensors (e.g., LiDARs or stereo cameras) or data-intensive and domain-specific fine-tuning of monocular metric depth estimation methods. In contrast, we propose several lightweight zero-shot rescaling strategies to obtain metric depth from relative depth estimates via the sparse 3D feature map created using a visual-inertial navigation system. These strategies are compared for their accuracy in diverse simulation environments. The best performing approach, which leverages monotonic spline fitting, is deployed in the real-world on a compute-constrained quadrotor. We obtain on-board metric depth estimates at 15 Hz and demonstrate successful collision avoidance after integrating the proposed method with a motion primitives-based planner.