The Midas Touch for Metric Depth

📄 arXiv: 2605.11578v1 📥 PDF

作者: Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan

分类: cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出MTD方法,利用极稀疏3D数据将相对深度转换为度量深度,提升跨场景泛化能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 度量深度估计 相对深度估计 深度补全 稀疏3D数据 图优化

📋 核心要点

  1. 现有相对深度估计方法缺乏度量尺度,存在局部不一致性,且计算效率较低,限制了其应用。
  2. MTD利用极稀疏3D数据,通过分段恢复和逐像素细化策略,将相对深度转化为具有度量尺度的深度。
  3. 实验表明,MTD在泛化能力和精度上均优于现有深度补全和深度估计方法,且易于部署。

📝 摘要(中文)

本文提出了一种名为“深度的迈达斯之触”(MTD)的方法,该方法具有数学可解释性,仅使用极稀疏的3D数据即可将相对深度转换为度量深度。为了消除局部尺度不一致性,MTD采用了一种基于稀疏图优化的分段恢复策略,然后使用一种感知不连续性的测地线代价进行逐像素细化。MTD表现出强大的泛化能力,并且在深度补全和深度估计方法上实现了显著的精度提升。此外,其轻量级、即插即用的设计有助于在各种下游3D任务上的部署和集成。

🔬 方法详解

问题定义:论文旨在解决相对深度估计缺乏度量尺度、局部不一致以及计算效率低的问题。现有方法难以在跨场景中泛化,限制了其在实际3D任务中的应用。

核心思路:论文的核心思路是利用极稀疏的3D数据作为约束,将相对深度转换为具有度量尺度的深度。通过分段恢复策略消除局部尺度不一致性,并使用逐像素细化策略进一步提高精度。这种方法旨在提高深度估计的准确性和泛化能力,同时保持计算效率。

技术框架:MTD方法主要包含以下几个阶段:1) 相对深度估计:使用现有的相对深度估计模型作为输入。2) 分段恢复:将图像分割成不同的区域,并在每个区域内进行尺度恢复,利用稀疏3D点构建图,通过图优化方法估计每个区域的尺度因子。3) 逐像素细化:使用感知不连续性的测地线代价函数,对每个像素的深度值进行细化,以提高深度图的局部一致性。

关键创新:MTD的关键创新在于其将相对深度转换为度量深度的方式,仅依赖于极稀疏的3D数据。此外,分段恢复策略和逐像素细化策略有效地解决了局部尺度不一致性和深度图的平滑性问题。与现有方法相比,MTD在精度和泛化能力上都有显著提升。

关键设计:在分段恢复阶段,使用稀疏图优化方法估计每个区域的尺度因子,图的节点表示图像分割区域,边表示相邻区域之间的关系,边的权重与区域边界的长度相关。在逐像素细化阶段,使用测地线距离作为代价函数,考虑了像素之间的空间关系和深度不连续性,从而更好地保持了深度图的边缘信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MTD方法在多个数据集上进行了评估,实验结果表明,MTD在深度估计精度上显著优于现有的深度补全和深度估计方法。例如,在某个数据集上,MTD的RMSE指标降低了XX%,表明其具有更强的泛化能力和更高的精度。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。通过提供准确的度量深度信息,可以提升机器人对环境的感知能力,改善自动驾驶系统的安全性,并为三维重建和虚拟现实应用提供更真实的数据。

📄 摘要(原文)

Recent advances have markedly improved the cross-scene generalization of relative depth estimation, yet its practical applicability remains limited by the absence of metric scale, local inconsistencies, and low computational efficiency. To address these issues, we present \emph{\textbf{M}idas \textbf{T}ouch for \textbf{D}epth} (MTD), a mathematically interpretable approach that converts relative depth into metric depth using only extremely sparse 3D data. To eliminate local scale inconsistencies, it applies a segment-wise recovery strategy via sparse graph optimization, followed by a pixel-wise refinement strategy using a discontinuity-aware geodesic cost. MTD exhibits strong generalization and achieves substantial accuracy improvements over previous depth completion and depth estimation methods. Moreover, its lightweight, plug-and-play design facilitates deployment and integration on diverse downstream 3D tasks. Project page is available at https://mias.group/MTD.