Learning Image-Adaptive Scale Fields for Metric Depth Recovery
作者: Yuanyan Li, Matthias Althoff
分类: cs.CV
发布日期: 2026-05-08
💡 一句话要点
提出基于图像自适应尺度场的度量深度恢复方法,解决单目深度估计的尺度不确定性问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 度量深度恢复 尺度场建模 图像自适应 稀疏锚点 计算机视觉
📋 核心要点
- 现有单目深度估计模型通常存在尺度模糊性,难以直接获取绝对度量深度,限制了其在自动驾驶等领域的落地应用。
- 本文提出将度量深度恢复建模为图像自适应尺度场,通过学习一组基图的线性组合来校准深度,而非直接回归深度值。
- 实验证明该方法在多数据集上显著提升了度量深度精度,尤其在极度稀疏的锚点条件下表现出卓越的鲁棒性与可解释性。
📝 摘要(中文)
单目深度估计(MDE)通常只能恢复至未知尺度或偏移的相对深度。在仅有稀疏度量锚点(metric anchors)的情况下,恢复精确的度量深度具有挑战性,但对实际应用至关重要。本文将度量深度恢复问题建模为图像自适应尺度场(image-adaptive scale fields)建模。研究者未直接修正深度,而是将修正过程重构为图像自适应基图的低维线性组合。这些基图源自MDE估计和中间表示中编码的语义与几何线索。通过最小二乘法,利用稀疏度量锚点高效确定基图权重。该方法在多个数据集和主流MDE模型上的实验表明,其不仅提升了度量深度精度,在极端稀疏锚点下表现出强鲁棒性,且实现了空间尺度变化的可解释性分解。
🔬 方法详解
问题定义:单目深度估计模型输出的深度图通常在尺度和偏移上存在不确定性。在实际场景中,仅能获取少量稀疏的度量锚点(如激光雷达点云),如何利用这些稀疏信息将相对深度转化为精确的度量深度是当前的核心痛点。
核心思路:论文提出将深度校准过程建模为“尺度场”。通过将图像的语义和几何特征转化为一组基图,利用稀疏锚点求解这些基图的线性组合系数,从而实现对整张深度图的自适应尺度修正。
技术框架:该方法首先从预训练的MDE模型中提取特征,构建一组图像自适应基图;随后,利用稀疏的度量锚点作为约束,通过最小二乘法求解各基图的权重系数;最后,将加权后的基图作用于原始深度图,得到最终的度量深度估计。
关键创新:创新性地引入了“图像自适应尺度场”概念,将复杂的深度校准问题转化为低维线性组合问题。这种方法不仅降低了计算复杂度,还通过基图的分解实现了尺度变化的可解释性。
关键设计:核心技术细节在于基图的构建,其利用了MDE模型内部的语义与几何线索,确保了尺度修正与图像内容的高度相关性。通过最小二乘法求解权重,保证了在极端稀疏锚点下的计算效率与数值稳定性。
🖼️ 关键图片
📊 实验亮点
实验在多个公开数据集上验证了该方法的有效性。结果显示,该方法在极度稀疏的锚点输入下,仍能保持极高的度量深度恢复精度,显著优于传统的全局尺度校准方法。其在不同主流MDE模型上的通用性证明了该框架的稳健性,且在尺度变化的可解释性分析上表现优异。
🎯 应用场景
该技术在自动驾驶、机器人导航、增强现实(AR)及三维重建领域具有重要价值。通过极少量的传感器数据即可将低成本单目相机转化为高精度深度传感器,显著降低了硬件成本,并提升了复杂动态环境下的空间感知能力。
📄 摘要(原文)
Monocular depth estimation (MDE) typically produces depth estimations that are defined up to an unknown scale or shift. When only sparse metric anchors are available, recovering accurate metric depth becomes challenging yet necessary for practical applications. We address this problem by formulating metric depth recovery as image-adaptive scale field modeling. Instead of directly correcting the depth, we reformulate the correction as a low-dimensional linear combination of image-adaptive basis maps. These maps are derived from semantic and geometric cues encoded in the MDE estimations and intermediate representations. The weights of basis maps are efficiently determined from sparse metric anchors via a least-squares problem. This formulation yields improved metric depth accuracy, strong robustness under extreme anchor sparsity, and an interpretable decomposition of spatial scale variations. Extensive experiments across multiple datasets and representative MDE models demonstrate the effectiveness and general applicability of our approach.