Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion

📄 arXiv: 2508.04984v1 📥 PDF

作者: Shenglun Chen, Xinzhu Ma, Hong Zhang, Haojie Li, Zhihui Wang

分类: cs.CV

发布日期: 2025-08-07

备注: Accepted by IEEE TIP

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于深度基础模型的稀疏深度传播方法,提升域外深度补全的鲁棒性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度补全 深度基础模型 域外泛化 稀疏深度传播 双空间传播

📋 核心要点

  1. 现有深度补全方法依赖特定数据集训练,泛化性差,在域外数据上表现不佳,鲁棒性不足。
  2. 利用深度基础模型提取RGB图像中的结构和语义信息,指导稀疏深度信息传播,增强模型鲁棒性。
  3. 设计双空间传播方法,结合可学习校正模块,在多个数据集上验证了域外场景下的优越性能。

📝 摘要(中文)

深度补全是计算机视觉中的一项关键挑战,旨在从稀疏深度图重建稠密深度图,通常会利用配对的RGB图像。现有的基于学习的模型依赖于精心准备但有限的数据,导致在域外(OOD)场景中性能显著下降。最近的基础模型通过大规模训练,在单目深度估计方面表现出卓越的鲁棒性,使用此类模型来增强深度补全模型的鲁棒性是一个有希望的解决方案。本文提出了一种新的深度补全框架,该框架利用深度基础模型来获得显著的鲁棒性,而无需大规模训练。具体来说,我们利用深度基础模型从RGB图像中提取环境线索,包括结构和语义上下文,以指导稀疏深度信息传播到缺失区域。我们进一步设计了一种双空间传播方法,无需任何可学习的参数,即可在3D和2D空间中有效地传播稀疏深度,以保持几何结构和局部一致性。为了细化复杂的结构,我们引入了一个可学习的校正模块,以逐步调整深度预测以接近真实深度。我们在NYUv2和KITTI数据集上训练我们的模型作为域内数据集,并在其他16个数据集上广泛评估该框架。我们的框架在OOD场景中表现出色,并且优于现有的最先进的深度补全方法。我们的模型已在https://github.com/shenglunch/PSD上发布。

🔬 方法详解

问题定义:深度补全旨在从稀疏深度图和RGB图像中恢复稠密深度图。现有方法依赖于特定数据集的训练,导致模型在面对与训练数据分布不同的域外(OOD)数据时,性能显著下降,泛化能力不足。这些方法难以有效利用RGB图像中的上下文信息,导致补全结果在几何结构和局部一致性方面存在问题。

核心思路:本文的核心思路是利用预训练的深度基础模型,从RGB图像中提取丰富的环境信息(包括结构和语义上下文),并将这些信息作为先验知识,指导稀疏深度信息的传播。通过这种方式,模型可以更好地理解场景,从而在缺失深度信息的区域进行更准确的深度补全,提高模型在OOD场景下的鲁棒性。

技术框架:该框架主要包含三个模块:1) 深度基础模型特征提取:利用预训练的深度基础模型(如DPT)提取RGB图像的特征,这些特征包含了场景的结构和语义信息。2) 双空间深度传播:设计了一种无参数的双空间传播方法,分别在3D空间和2D空间中传播稀疏深度信息。3D空间传播利用几何关系保持结构一致性,2D空间传播利用图像特征保持局部一致性。3) 可学习校正模块:引入一个可学习的校正模块,用于逐步调整深度预测结果,使其更接近真实深度。该模块通过学习残差,对传播后的深度图进行精细化调整。

关键创新:该方法最重要的创新点在于利用深度基础模型提取的先验知识,指导稀疏深度信息的传播,从而显著提升了模型在OOD场景下的鲁棒性。与现有方法相比,该方法无需大规模的OOD数据训练,即可获得良好的泛化性能。双空间传播和可学习校正模块进一步提升了深度补全的精度和结构一致性。

关键设计:双空间传播的具体实现方式是:首先将稀疏深度点投影到3D空间,然后利用3D空间中的邻域关系进行深度传播。同时,在2D图像空间中,利用图像特征相似性进行深度传播。最后,将两个空间的传播结果进行融合。可学习校正模块采用残差学习的方式,通过卷积神经网络学习深度预测结果与真实深度之间的残差,从而逐步调整深度预测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在16个域外数据集上进行了广泛评估,实验结果表明,该方法在OOD场景下显著优于现有的深度补全方法。例如,在某些数据集上,该方法的性能提升超过10%。此外,该方法在NYUv2和KITTI数据集上也取得了具有竞争力的结果,证明了其在域内场景下的有效性。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。在自动驾驶中,深度补全可以帮助车辆更好地感知周围环境,提高驾驶安全性。在机器人导航中,可以帮助机器人构建更准确的环境地图,实现自主导航。在三维重建和虚拟现实中,可以生成更逼真的三维场景。

📄 摘要(原文)

Depth completion is a pivotal challenge in computer vision, aiming at reconstructing the dense depth map from a sparse one, typically with a paired RGB image. Existing learning based models rely on carefully prepared but limited data, leading to significant performance degradation in out-of-distribution (OOD) scenarios. Recent foundation models have demonstrated exceptional robustness in monocular depth estimation through large-scale training, and using such models to enhance the robustness of depth completion models is a promising solution. In this work, we propose a novel depth completion framework that leverages depth foundation models to attain remarkable robustness without large-scale training. Specifically, we leverage a depth foundation model to extract environmental cues, including structural and semantic context, from RGB images to guide the propagation of sparse depth information into missing regions. We further design a dual-space propagation approach, without any learnable parameters, to effectively propagates sparse depth in both 3D and 2D spaces to maintain geometric structure and local consistency. To refine the intricate structure, we introduce a learnable correction module to progressively adjust the depth prediction towards the real depth. We train our model on the NYUv2 and KITTI datasets as in-distribution datasets and extensively evaluate the framework on 16 other datasets. Our framework performs remarkably well in the OOD scenarios and outperforms existing state-of-the-art depth completion methods. Our models are released in https://github.com/shenglunch/PSD.