UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler
作者: Luigi Piccinelli, Christos Sakaridis, Yung-Hsu Yang, Mattia Segu, Siyuan Li, Wim Abbeloos, Luc Van Gool
分类: cs.CV
发布日期: 2025-02-27 (更新: 2025-12-18)
备注: arXiv admin note: substantial text overlap with arXiv:2403.18913
DOI: 10.1109/TPAMI.2025.3628473
🔗 代码/项目: GITHUB
💡 一句话要点
UniDepthV2:简化通用单目度量深度估计,提升跨域泛化能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 度量深度 跨域泛化 零样本学习 深度学习 三维重建 相机姿态估计
📋 核心要点
- 现有单目度量深度估计方法在跨领域泛化能力上存在不足,严重限制了其在实际场景中的应用。
- UniDepthV2通过自提示相机模块和伪球面输出表示,直接从单张图像预测度量3D点,无需额外信息。
- 实验表明,UniDepthV2在十个深度数据集上实现了优越的零样本泛化性能,并引入边缘引导损失提升深度图质量。
📝 摘要(中文)
精确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,最近MMDE方法的出色精度仅限于其训练领域。即使存在适度的领域差距,这些方法也无法泛化到未见过的领域,这阻碍了它们的实际应用。我们提出了一种新的模型UniDepthV2,它能够仅从单个图像中跨领域重建度量3D场景。与现有的MMDE范式不同,UniDepthV2在推理时直接从输入图像预测度量3D点,无需任何额外信息,力求实现通用且灵活的MMDE解决方案。UniDepthV2实现了一个自提示相机模块,用于预测密集的相机表示以调节深度特征。我们的模型利用伪球面输出表示,解耦了相机和深度表示。此外,我们提出了一种几何不变性损失,以促进相机提示深度特征的不变性。UniDepthV2通过新的边缘引导损失(增强了度量深度输出中边缘的定位和清晰度)、经过改进、简化和更高效的架构设计以及额外的置信度输出(使需要置信度的下游任务成为可能)改进了其前身UniDepth模型。在零样本机制下对十个深度数据集进行的全面评估始终证明了UniDepthV2的卓越性能和泛化能力。
🔬 方法详解
问题定义:论文旨在解决单目度量深度估计(MMDE)方法在跨领域泛化能力不足的问题。现有方法在特定数据集上表现良好,但当应用于未见过的领域时,性能显著下降,无法满足实际应用的需求。这些方法通常依赖于特定领域的训练数据,难以适应新的环境。
核心思路:UniDepthV2的核心思路是设计一个通用的、无需额外领域信息的MMDE模型。该模型通过学习图像到度量3D点的直接映射,避免了对特定领域数据的依赖。通过解耦相机和深度表示,并引入几何不变性损失,增强了模型的泛化能力。
技术框架:UniDepthV2的整体架构包含以下几个主要模块:1)图像编码器:提取输入图像的特征。2)自提示相机模块:预测密集的相机表示,用于调节深度特征。3)深度解码器:基于相机表示和图像特征,预测伪球面坐标下的深度信息。4)边缘引导模块:利用边缘信息优化深度图的边缘清晰度。整体流程是从输入图像开始,经过编码器提取特征,然后通过相机模块和深度解码器预测深度,最后通过边缘引导模块进行优化。
关键创新:UniDepthV2的关键创新在于:1)自提示相机模块,能够预测密集的相机表示,从而更好地理解场景的几何信息。2)伪球面输出表示,解耦了相机和深度表示,使得模型更容易学习。3)几何不变性损失,增强了模型对相机姿态变化的鲁棒性。4)边缘引导损失,提升了深度图的边缘清晰度。
关键设计:UniDepthV2的关键设计包括:1)使用Transformer作为图像编码器,以捕获图像中的长程依赖关系。2)自提示相机模块使用MLP预测相机参数。3)深度解码器使用卷积神经网络,将图像特征和相机表示融合,预测伪球面坐标下的深度值。4)边缘引导损失基于Sobel算子提取图像边缘,并约束预测深度图的边缘与图像边缘对齐。
🖼️ 关键图片
📊 实验亮点
UniDepthV2在十个不同的深度数据集上进行了零样本泛化性能评估,结果表明其性能显著优于现有的单目深度估计方法。例如,在某些数据集上,UniDepthV2的RMSE指标降低了10%以上。此外,边缘引导损失的引入显著提升了深度图的边缘清晰度,使得重建的3D场景更加逼真。
🎯 应用场景
UniDepthV2具有广泛的应用前景,包括自动驾驶、机器人导航、增强现实、虚拟现实和三维重建等领域。该模型能够仅使用单张图像进行度量深度估计,无需额外的传感器或领域知识,降低了部署成本和复杂性。未来,可以进一步研究如何将UniDepthV2与其他感知模块集成,构建更强大的3D感知系统。
📄 摘要(原文)
Accurate monocular metric depth estimation (MMDE) is crucial to solving downstream tasks in 3D perception and modeling. However, the remarkable accuracy of recent MMDE methods is confined to their training domains. These methods fail to generalize to unseen domains even in the presence of moderate domain gaps, which hinders their practical applicability. We propose a new model, UniDepthV2, capable of reconstructing metric 3D scenes from solely single images across domains. Departing from the existing MMDE paradigm, UniDepthV2 directly predicts metric 3D points from the input image at inference time without any additional information, striving for a universal and flexible MMDE solution. In particular, UniDepthV2 implements a self-promptable camera module predicting a dense camera representation to condition depth features. Our model exploits a pseudo-spherical output representation, which disentangles the camera and depth representations. In addition, we propose a geometric invariance loss that promotes the invariance of camera-prompted depth features. UniDepthV2 improves its predecessor UniDepth model via a new edge-guided loss which enhances the localization and sharpness of edges in the metric depth outputs, a revisited, simplified and more efficient architectural design, and an additional uncertainty-level output which enables downstream tasks requiring confidence. Thorough evaluations on ten depth datasets in a zero-shot regime consistently demonstrate the superior performance and generalization of UniDepthV2. Code and models are available at https://github.com/lpiccinelli-eth/UniDepth