WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation

📄 arXiv: 2511.08036v1 📥 PDF

作者: Gongshu Wang, Zhirui Wang, Kan Yang

分类: cs.CV

发布日期: 2025-11-11


💡 一句话要点

WEDepth:高效利用世界知识自适应单目深度估计

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 单目深度估计 视觉基础模型 知识迁移 多层次特征 零样本学习

📋 核心要点

  1. 单目深度估计面临从2D图像推断3D信息的固有难题,现有方法难以充分利用图像中的世界知识。
  2. WEDepth通过将视觉基础模型(VFM)作为多层次特征增强器,在不同表示层级注入先验知识,实现高效的知识迁移。
  3. 实验表明,WEDepth在NYU-Depth v2和KITTI数据集上取得了SOTA性能,并展现出强大的零样本迁移能力。

📝 摘要(中文)

单目深度估计(MDE)应用广泛,但由于从2D图像重建3D场景的固有不适定性而极具挑战。现代视觉基础模型(VFMs)在大型多样化数据集上预训练,表现出卓越的世界理解能力,这有利于各种视觉任务。最近的研究表明,通过微调这些VFMs,MDE取得了显著的改进。受这些进展的启发,我们提出了WEDepth,一种新颖的方法,用于调整VFMs以进行MDE,而无需修改其结构和预训练权重,同时有效地引出和利用其固有的先验知识。我们的方法采用VFM作为多层次特征增强器,系统地在不同的表示层次上注入先验知识。在NYU-Depth v2和KITTI数据集上的实验表明,WEDepth建立了新的最先进(SOTA)性能,与基于扩散的方法(需要多次前向传递)和在相对深度上预训练的方法相比,取得了有竞争力的结果。此外,我们证明了我们的方法在各种场景中表现出强大的零样本迁移能力。

🔬 方法详解

问题定义:单目深度估计旨在从单张2D图像中预测场景的深度信息。现有方法通常难以有效利用图像中蕴含的世界知识,导致深度估计精度受限。此外,直接微调大型视觉基础模型(VFMs)计算成本高昂,且可能破坏其预训练的通用知识。

核心思路:WEDepth的核心思路是利用预训练的视觉基础模型(VFMs)作为知识来源,通过一种高效的自适应方式,将VFMs中蕴含的世界知识迁移到单目深度估计任务中。该方法避免了对VFM结构的修改和权重的微调,从而降低了计算成本,并保留了VFM的通用性。

技术框架:WEDepth的整体框架包括以下几个主要模块:1) 视觉基础模型(VFM):作为特征提取器,提取输入图像的多层次特征表示。2) 多层次特征注入:将VFM提取的特征注入到深度估计网络的各个层级,从而将VFM的先验知识传递给深度估计网络。3) 深度估计网络:负责从融合了VFM特征的图像表示中预测深度图。

关键创新:WEDepth的关键创新在于其高效的知识迁移机制。它通过多层次特征注入的方式,将VFM的知识融入到深度估计网络中,而无需对VFM进行微调。这种方法既降低了计算成本,又保留了VFM的通用性。此外,该方法在不同层级注入知识,使得深度估计网络能够学习到不同粒度的先验信息。

关键设计:WEDepth的关键设计包括:1) VFM的选择:论文中使用了预训练的视觉Transformer模型作为VFM。2) 特征注入方式:采用了残差连接的方式将VFM的特征注入到深度估计网络中,避免了梯度消失问题。3) 损失函数:使用了深度回归常用的L1损失函数和尺度不变梯度损失函数,以提高深度估计的精度。

📊 实验亮点

WEDepth在NYU-Depth v2和KITTI数据集上取得了SOTA性能。在NYU-Depth v2数据集上,WEDepth的绝对相对误差(Abs Rel)为0.068,均方根误差(RMSE)为0.265,优于现有的基于扩散的方法和在相对深度上预训练的方法。此外,WEDepth还展现出强大的零样本迁移能力,在未见过的场景中也能取得较好的深度估计结果。

🎯 应用场景

WEDepth在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。精确的单目深度估计可以帮助自动驾驶系统更好地理解周围环境,提高导航的安全性。在机器人领域,深度信息可以用于物体识别、抓取和场景重建。增强现实应用则可以利用深度信息实现更逼真的虚拟物体叠加效果。该研究降低了单目深度估计对计算资源的需求,使其更容易部署在移动设备和嵌入式系统中。

📄 摘要(原文)

Monocular depth estimation (MDE) has widely applicable but remains highly challenging due to the inherently ill-posed nature of reconstructing 3D scenes from single 2D images. Modern Vision Foundation Models (VFMs), pre-trained on large-scale diverse datasets, exhibit remarkable world understanding capabilities that benefit for various vision tasks. Recent studies have demonstrated significant improvements in MDE through fine-tuning these VFMs. Inspired by these developments, we propose WEDepth, a novel approach that adapts VFMs for MDE without modi-fying their structures and pretrained weights, while effec-tively eliciting and leveraging their inherent priors. Our method employs the VFM as a multi-level feature en-hancer, systematically injecting prior knowledge at differ-ent representation levels. Experiments on NYU-Depth v2 and KITTI datasets show that WEDepth establishes new state-of-the-art (SOTA) performance, achieving competi-tive results compared to both diffusion-based approaches (which require multiple forward passes) and methods pre-trained on relative depth. Furthermore, we demonstrate our method exhibits strong zero-shot transfer capability across diverse scenarios.