WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation

作者: Gongshu Wang, Zhirui Wang, Kan Yang

分类: cs.CV

发布日期: 2025-11-11

💡 一句话要点

WEDepth：高效利用世界知识自适应单目深度估计

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 单目深度估计 视觉基础模型 知识迁移 多层次特征 零样本学习

📋 核心要点

单目深度估计面临从2D图像推断3D信息的固有难题，现有方法难以充分利用图像中的世界知识。
WEDepth通过将视觉基础模型(VFM)作为多层次特征增强器，在不同表示层级注入先验知识，实现高效的知识迁移。
实验表明，WEDepth在NYU-Depth v2和KITTI数据集上取得了SOTA性能，并展现出强大的零样本迁移能力。

📝 摘要（中文）

单目深度估计(MDE)应用广泛，但由于从2D图像重建3D场景的固有不适定性而极具挑战。现代视觉基础模型(VFMs)在大型多样化数据集上预训练，表现出卓越的世界理解能力，这有利于各种视觉任务。最近的研究表明，通过微调这些VFMs，MDE取得了显著的改进。受这些进展的启发，我们提出了WEDepth，一种新颖的方法，用于调整VFMs以进行MDE，而无需修改其结构和预训练权重，同时有效地引出和利用其固有的先验知识。我们的方法采用VFM作为多层次特征增强器，系统地在不同的表示层次上注入先验知识。在NYU-Depth v2和KITTI数据集上的实验表明，WEDepth建立了新的最先进(SOTA)性能，与基于扩散的方法(需要多次前向传递)和在相对深度上预训练的方法相比，取得了有竞争力的结果。此外，我们证明了我们的方法在各种场景中表现出强大的零样本迁移能力。

🔬 方法详解

问题定义：单目深度估计旨在从单张2D图像中预测场景的深度信息。现有方法通常难以有效利用图像中蕴含的世界知识，导致深度估计精度受限。此外，直接微调大型视觉基础模型（VFMs）计算成本高昂，且可能破坏其预训练的通用知识。

核心思路：WEDepth的核心思路是利用预训练的视觉基础模型（VFMs）作为知识来源，通过一种高效的自适应方式，将VFMs中蕴含的世界知识迁移到单目深度估计任务中。该方法避免了对VFM结构的修改和权重的微调，从而降低了计算成本，并保留了VFM的通用性。

技术框架：WEDepth的整体框架包括以下几个主要模块：1) 视觉基础模型（VFM）：作为特征提取器，提取输入图像的多层次特征表示。2) 多层次特征注入：将VFM提取的特征注入到深度估计网络的各个层级，从而将VFM的先验知识传递给深度估计网络。3) 深度估计网络：负责从融合了VFM特征的图像表示中预测深度图。

关键创新：WEDepth的关键创新在于其高效的知识迁移机制。它通过多层次特征注入的方式，将VFM的知识融入到深度估计网络中，而无需对VFM进行微调。这种方法既降低了计算成本，又保留了VFM的通用性。此外，该方法在不同层级注入知识，使得深度估计网络能够学习到不同粒度的先验信息。

关键设计：WEDepth的关键设计包括：1) VFM的选择：论文中使用了预训练的视觉Transformer模型作为VFM。2) 特征注入方式：采用了残差连接的方式将VFM的特征注入到深度估计网络中，避免了梯度消失问题。3) 损失函数：使用了深度回归常用的L1损失函数和尺度不变梯度损失函数，以提高深度估计的精度。

📊 实验亮点

WEDepth在NYU-Depth v2和KITTI数据集上取得了SOTA性能。在NYU-Depth v2数据集上，WEDepth的绝对相对误差(Abs Rel)为0.068，均方根误差(RMSE)为0.265，优于现有的基于扩散的方法和在相对深度上预训练的方法。此外，WEDepth还展现出强大的零样本迁移能力，在未见过的场景中也能取得较好的深度估计结果。

🎯 应用场景

WEDepth在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。精确的单目深度估计可以帮助自动驾驶系统更好地理解周围环境，提高导航的安全性。在机器人领域，深度信息可以用于物体识别、抓取和场景重建。增强现实应用则可以利用深度信息实现更逼真的虚拟物体叠加效果。该研究降低了单目深度估计对计算资源的需求，使其更容易部署在移动设备和嵌入式系统中。

📄 摘要（原文）

Monocular depth estimation (MDE) has widely applicable but remains highly challenging due to the inherently ill-posed nature of reconstructing 3D scenes from single 2D images. Modern Vision Foundation Models (VFMs), pre-trained on large-scale diverse datasets, exhibit remarkable world understanding capabilities that benefit for various vision tasks. Recent studies have demonstrated significant improvements in MDE through fine-tuning these VFMs. Inspired by these developments, we propose WEDepth, a novel approach that adapts VFMs for MDE without modi-fying their structures and pretrained weights, while effec-tively eliciting and leveraging their inherent priors. Our method employs the VFM as a multi-level feature en-hancer, systematically injecting prior knowledge at differ-ent representation levels. Experiments on NYU-Depth v2 and KITTI datasets show that WEDepth establishes new state-of-the-art (SOTA) performance, achieving competi-tive results compared to both diffusion-based approaches (which require multiple forward passes) and methods pre-trained on relative depth. Furthermore, we demonstrate our method exhibits strong zero-shot transfer capability across diverse scenarios.

WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册