Large Depth Completion Model from Sparse Observations

作者: Zhu Yu, Zhengyi Zhao, Runmin Zhang, Lingteng Qiu, Kejie Qiu, Yisheng He, Siyu Zhu, Zilong Dong, Si-Yuan Cao, Hui-Liang Shen

分类: cs.CV

发布日期: 2026-05-28

备注: ICLR 2026. Project webpage: https://pkqbajng.github.io/ldcm/

💡 一句话要点

提出LDCM：基于Transformer的大规模稀疏深度补全模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度补全 Transformer 单目深度估计 点云估计 三维重建

📋 核心要点

现有深度补全方法依赖复杂架构，且难以处理不同稀疏度的输入，泛化性不足。
LDCM利用Transformer，结合单目基础模型提升稀疏深度质量，并用点图头回归3D坐标。
实验表明，LDCM在多个数据集和稀疏度下，深度补全和点图估计均优于SOTA方法。

📝 摘要（中文）

本文提出了一种简单、有效且鲁棒的大规模深度补全模型（LDCM），用于从稀疏观测中进行单视图度量深度估计。LDCM不依赖于复杂的架构设计，而是利用Transformer生成度量精确的稠密深度图，在各种数据集和稀疏观测条件下均优于现有方法。该成果主要得益于两个关键方面：(1) 利用现有的单目基础模型来提高稀疏深度输入的质量；(2) 重新设计训练目标，以更好地捕捉几何结构和度量一致性。具体而言，首先引入基于泊松的深度初始化策略，从不同的稀疏观测中生成均匀的粗略稠密深度图，为网络提供强大的结构先验。在训练目标方面，用点图头替换传统的深度头，回归相机空间中每个像素的3D坐标，使模型能够直接学习潜在的3D场景结构，而不是执行逐像素的深度图恢复。此外，这种设计消除了对相机内参的需求，使LDCM能够自然地生成度量尺度的3D点图。大量实验表明，LDCM在多个基准测试和不同稀疏程度下，在深度补全和点图估计方面始终优于最先进的方法，展示了其有效性和对未见数据分布的强大泛化能力。

🔬 方法详解

问题定义：论文旨在解决从稀疏深度观测中生成高质量稠密深度图的问题。现有方法通常依赖于复杂的网络结构，并且在处理不同稀疏程度的输入时表现不佳，泛化能力有限。此外，许多方法需要相机内参，限制了其应用范围。

核心思路：论文的核心思路是利用Transformer强大的建模能力，结合单目基础模型提供的先验知识，以及重新设计的训练目标，直接学习3D场景结构，从而实现更准确、更鲁棒的深度补全。通过回归相机坐标系下的3D点，避免了对相机内参的依赖。

技术框架：LDCM的整体框架包括以下几个主要步骤：1) 使用泊松方程从稀疏深度输入初始化一个粗略的稠密深度图，作为网络的输入；2) 利用Transformer网络对初始深度图进行 refinement；3) 使用点图头（point map head）回归每个像素在相机坐标系下的3D坐标。

关键创新：该论文的关键创新在于：1) 提出了一种基于泊松方程的深度初始化策略，为网络提供了一个良好的结构先验；2) 使用点图头直接回归3D坐标，而不是传统的深度值，从而使模型能够直接学习3D场景结构，并消除对相机内参的依赖。

关键设计：在深度初始化方面，使用了泊松方程来平滑稀疏深度输入，生成一个粗略的稠密深度图。在网络结构方面，使用了Transformer作为主要的特征提取器。在损失函数方面，使用了L1损失来衡量预测的3D坐标与真实3D坐标之间的差异。点图头是一个简单的全连接层，用于将Transformer的输出映射到3D坐标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LDCM在多个基准数据集上均取得了state-of-the-art的性能。例如，在深度补全任务中，LDCM在NYU Depth V2数据集上显著优于现有方法。此外，LDCM在不同稀疏程度的输入下均表现出良好的鲁棒性，证明了其强大的泛化能力。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。高质量的深度补全能够提升机器人对环境的感知能力，增强自动驾驶系统的安全性，并为三维重建和虚拟现实提供更精确的几何信息。未来，该技术有望进一步推动这些领域的发展。

📄 摘要（原文）

This work presents the Large Depth Completion Model (LDCM), a simple, effective, and robust framework for single-view metric depth estimation with sparse observations. Without relying on complex architectural designs, LDCM generates metric-accurate dense depth maps using a transformer. It outperforms existing approaches across diverse datasets and sparse observations. We achieve this from two key perspectives: (1) leveraging existing monocular foundation models to improve the quality of sparse depth inputs, and (2) reformulating training objectives to better capture geometric structure and metric consistency. Specifically, a Poisson-based depth initialization strategy is first introduced to generate a uniform coarse dense depth map from diverse sparse observations, providing a strong structural prior for the network. Regarding the training objective, we replace the conventional depth head with a point map head that regresses per-pixel 3D coordinates in camera space, enabling the model to directly learn the underlying 3D scene structure instead of performing pixel-wise depth map restoration. Moreover, this design eliminates the need for camera intrinsic parameters, allowing LDCM to naturally produce metric-scaled 3D point maps. Extensive experiments demonstrate that LDCM consistently outperforms state-of-the-art methods across multiple benchmarks and varying sparsity levels in both depth completion and point map estimation, showcasing its effectiveness and strong generalization to unseen data distributions.

Large Depth Completion Model from Sparse Observations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理