Training Self-Supervised Depth Completion Using Sparse Measurements and a Single Image

📄 arXiv: 2507.14845v1 📥 PDF

作者: Rizhao Fan, Zhigen Li, Heping Li, Ning An

分类: cs.CV

发布日期: 2025-07-20


💡 一句话要点

提出一种仅使用稀疏深度测量和单张图像进行自监督深度补全训练的方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度补全 自监督学习 稀疏深度 单张图像 视觉基础模型 深度估计 分割图

📋 核心要点

  1. 现有深度补全方法依赖稠密标签或多帧图像,存在标注成本高和应用场景受限的问题。
  2. 该论文提出一种新颖的自监督深度补全方法,仅需稀疏深度测量和单张图像即可训练。
  3. 实验结果表明,该方法能够有效利用稀疏深度信息,并结合分割图提升深度补全效果。

📝 摘要(中文)

深度补全是重要的视觉任务,许多研究致力于提升从稀疏深度测量中恢复深度图的质量。尽管取得了显著进展,但训练模型以从稀疏测量中恢复稠密深度仍然是一个具有挑战性的问题。监督学习方法依赖于稠密深度标签来预测未观测区域,而自监督方法需要图像序列来强制执行几何约束和帧间的光度一致性。然而,获取稠密标注成本高昂,并且多帧依赖性限制了自监督方法在静态或单帧场景中的适用性。为了解决这些挑战,我们提出了一种新颖的自监督深度补全范例,该范例仅需要稀疏深度测量及其对应的图像进行训练。与现有方法不同,我们的方法无需稠密深度标签或从相邻视点捕获的额外图像。通过利用深度分布的特性,我们设计了新的损失函数,可以有效地将深度信息从观测点传播到未观测区域。此外,我们还结合了视觉基础模型生成的分割图,以进一步增强深度估计。大量实验证明了我们提出的方法的有效性。

🔬 方法详解

问题定义:深度补全旨在从稀疏的深度测量中恢复稠密的深度图。现有的监督学习方法需要大量的稠密深度图作为标签,获取成本高昂。而自监督方法通常依赖于多帧图像序列,通过光度一致性等约束进行学习,这限制了其在单帧或静态场景中的应用。因此,如何在仅有稀疏深度测量和单张图像的情况下,有效地进行深度补全是一个关键问题。

核心思路:该论文的核心思路是利用深度分布的特性,设计新的损失函数,将观测到的稀疏深度信息传播到未观测区域。同时,结合视觉基础模型生成的分割图,提供额外的上下文信息,从而提高深度补全的准确性。这种方法避免了对稠密深度标签或多帧图像的依赖,使得模型可以在更广泛的场景中应用。

技术框架:该方法主要包含一个深度补全网络和一个分割网络。深度补全网络以稀疏深度图和对应的图像作为输入,输出稠密的深度图。分割网络(例如,由视觉基础模型提供)用于生成图像的分割图,该分割图被用作深度补全网络的辅助信息。整个训练过程是自监督的,通过设计的损失函数来约束深度补全网络的输出。

关键创新:该论文的关键创新在于提出了一种新的自监督深度补全范例,该范例仅需要稀疏深度测量和单张图像进行训练。与现有方法相比,该方法无需稠密深度标签或额外的图像序列,降低了训练成本和数据需求。此外,利用深度分布特性设计的损失函数和结合分割图的策略,有效地提高了深度补全的性能。

关键设计:论文中设计了特定的损失函数,用于约束深度补全网络的输出。这些损失函数可能包括:1) 深度一致性损失,用于保证补全后的深度图与稀疏深度测量的一致性;2) 深度平滑损失,用于保证补全后的深度图在局部区域的平滑性;3) 基于分割的深度损失,利用分割图的信息,对不同区域的深度进行约束。具体的网络结构和参数设置在论文中应该有详细的描述,但根据摘要无法得知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的方法在仅使用稀疏深度测量和单张图像的情况下,实现了有效的自监督深度补全。通过设计新的损失函数和结合分割图,该方法在深度补全的准确性和鲁棒性方面取得了显著的提升。具体的性能数据和对比基线需要在论文中查找,摘要中未提供。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,可以利用车载传感器获取的稀疏深度信息,结合单目相机图像进行深度补全,提高环境感知能力。在机器人导航中,可以帮助机器人更好地理解周围环境,实现更精确的定位和路径规划。在三维重建中,可以从单张图像和少量深度信息中恢复出高质量的三维模型。

📄 摘要(原文)

Depth completion is an important vision task, and many efforts have been made to enhance the quality of depth maps from sparse depth measurements. Despite significant advances, training these models to recover dense depth from sparse measurements remains a challenging problem. Supervised learning methods rely on dense depth labels to predict unobserved regions, while self-supervised approaches require image sequences to enforce geometric constraints and photometric consistency between frames. However, acquiring dense annotations is costly, and multi-frame dependencies limit the applicability of self-supervised methods in static or single-frame scenarios. To address these challenges, we propose a novel self-supervised depth completion paradigm that requires only sparse depth measurements and their corresponding image for training. Unlike existing methods, our approach eliminates the need for dense depth labels or additional images captured from neighboring viewpoints. By leveraging the characteristics of depth distribution, we design novel loss functions that effectively propagate depth information from observed points to unobserved regions. Additionally, we incorporate segmentation maps generated by vision foundation models to further enhance depth estimation. Extensive experiments demonstrate the effectiveness of our proposed method.