Large Depth Completion Model from Sparse Observations
作者: Zhu Yu, Zhengyi Zhao, Runmin Zhang, Lingteng Qiu, Kejie Qiu, Yisheng He, Siyu Zhu, Zilong Dong, Si-Yuan Cao, Hui-Liang Shen
分类: cs.CV
发布日期: 2026-05-28
备注: ICLR 2026. Project webpage: https://pkqbajng.github.io/ldcm/
💡 一句话要点
提出LDCM:基于Transformer的大规模稀疏深度补全模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度补全 Transformer 单目深度估计 点云估计 三维重建
📋 核心要点
- 现有深度补全方法依赖复杂架构,且难以处理不同稀疏度的输入,泛化性不足。
- LDCM利用Transformer,结合单目基础模型提升稀疏深度质量,并用点图头回归3D坐标。
- 实验表明,LDCM在多个数据集和稀疏度下,深度补全和点图估计均优于SOTA方法。
📝 摘要(中文)
本文提出了一种简单、有效且鲁棒的大规模深度补全模型(LDCM),用于从稀疏观测中进行单视图度量深度估计。LDCM不依赖于复杂的架构设计,而是利用Transformer生成度量精确的稠密深度图,在各种数据集和稀疏观测条件下均优于现有方法。该成果主要得益于两个关键方面:(1) 利用现有的单目基础模型来提高稀疏深度输入的质量;(2) 重新设计训练目标,以更好地捕捉几何结构和度量一致性。具体而言,首先引入基于泊松的深度初始化策略,从不同的稀疏观测中生成均匀的粗略稠密深度图,为网络提供强大的结构先验。在训练目标方面,用点图头替换传统的深度头,回归相机空间中每个像素的3D坐标,使模型能够直接学习潜在的3D场景结构,而不是执行逐像素的深度图恢复。此外,这种设计消除了对相机内参的需求,使LDCM能够自然地生成度量尺度的3D点图。大量实验表明,LDCM在多个基准测试和不同稀疏程度下,在深度补全和点图估计方面始终优于最先进的方法,展示了其有效性和对未见数据分布的强大泛化能力。
🔬 方法详解
问题定义:论文旨在解决从稀疏深度观测中生成高质量稠密深度图的问题。现有方法通常依赖于复杂的网络结构,并且在处理不同稀疏程度的输入时表现不佳,泛化能力有限。此外,许多方法需要相机内参,限制了其应用范围。
核心思路:论文的核心思路是利用Transformer强大的建模能力,结合单目基础模型提供的先验知识,以及重新设计的训练目标,直接学习3D场景结构,从而实现更准确、更鲁棒的深度补全。通过回归相机坐标系下的3D点,避免了对相机内参的依赖。
技术框架:LDCM的整体框架包括以下几个主要步骤:1) 使用泊松方程从稀疏深度输入初始化一个粗略的稠密深度图,作为网络的输入;2) 利用Transformer网络对初始深度图进行 refinement;3) 使用点图头(point map head)回归每个像素在相机坐标系下的3D坐标。
关键创新:该论文的关键创新在于:1) 提出了一种基于泊松方程的深度初始化策略,为网络提供了一个良好的结构先验;2) 使用点图头直接回归3D坐标,而不是传统的深度值,从而使模型能够直接学习3D场景结构,并消除对相机内参的依赖。
关键设计:在深度初始化方面,使用了泊松方程来平滑稀疏深度输入,生成一个粗略的稠密深度图。在网络结构方面,使用了Transformer作为主要的特征提取器。在损失函数方面,使用了L1损失来衡量预测的3D坐标与真实3D坐标之间的差异。点图头是一个简单的全连接层,用于将Transformer的输出映射到3D坐标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LDCM在多个基准数据集上均取得了state-of-the-art的性能。例如,在深度补全任务中,LDCM在NYU Depth V2数据集上显著优于现有方法。此外,LDCM在不同稀疏程度的输入下均表现出良好的鲁棒性,证明了其强大的泛化能力。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。高质量的深度补全能够提升机器人对环境的感知能力,增强自动驾驶系统的安全性,并为三维重建和虚拟现实提供更精确的几何信息。未来,该技术有望进一步推动这些领域的发展。
📄 摘要(原文)
This work presents the Large Depth Completion Model (LDCM), a simple, effective, and robust framework for single-view metric depth estimation with sparse observations. Without relying on complex architectural designs, LDCM generates metric-accurate dense depth maps using a transformer. It outperforms existing approaches across diverse datasets and sparse observations. We achieve this from two key perspectives: (1) leveraging existing monocular foundation models to improve the quality of sparse depth inputs, and (2) reformulating training objectives to better capture geometric structure and metric consistency. Specifically, a Poisson-based depth initialization strategy is first introduced to generate a uniform coarse dense depth map from diverse sparse observations, providing a strong structural prior for the network. Regarding the training objective, we replace the conventional depth head with a point map head that regresses per-pixel 3D coordinates in camera space, enabling the model to directly learn the underlying 3D scene structure instead of performing pixel-wise depth map restoration. Moreover, this design eliminates the need for camera intrinsic parameters, allowing LDCM to naturally produce metric-scaled 3D point maps. Extensive experiments demonstrate that LDCM consistently outperforms state-of-the-art methods across multiple benchmarks and varying sparsity levels in both depth completion and point map estimation, showcasing its effectiveness and strong generalization to unseen data distributions.