SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

📄 arXiv: 2602.22565 📥 PDF

作者: Kang Han, Wei Xiang, Lu Yu, Mathew Wyatt, Gaowen Liu, Ramana Rao Kompella

分类: cs.CV, cs.GR

发布日期: 2026-02-28


💡 一句话要点

SwiftNDC:快速神经深度校正,实现高保真3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经深度校正 3D重建 高斯溅射 新视角合成 深度估计

📋 核心要点

  1. 现有深度引导的3D重建方法存在尺度漂移和多视角不一致问题,需要大量优化。
  2. SwiftNDC通过神经深度校正场生成跨视角一致的深度图,提供可靠的几何初始化。
  3. 实验表明,SwiftNDC能加速网格重建,提升新视角合成的渲染质量。

📝 摘要(中文)

深度引导的3D重建作为一种快速替代优化方法的方案越来越受欢迎,但现有方法仍然存在尺度漂移、多视角不一致等问题,并且需要大量的优化才能实现高保真几何体。本文提出SwiftNDC,这是一个快速且通用的框架,围绕神经深度校正场构建,该校正场生成跨视角一致的深度图。从这些精细的深度图中,我们通过反投影和鲁棒的重投影误差过滤生成密集的点云,从而为下游重建获得干净且均匀分布的几何初始化。这种可靠的密集几何体显著加速了用于网格重建的3D高斯溅射(3DGS),从而能够以更少的优化迭代次数获得高质量的表面。对于新视角合成,SwiftNDC还可以提高3DGS渲染质量,突出了强大的几何初始化的好处。我们在五个数据集上进行了一项全面的研究,包括两个用于网格重建的数据集以及三个用于新视角合成的数据集。SwiftNDC始终减少了精确网格重建的运行时间,并提高了视角合成的渲染保真度,证明了将神经深度细化与鲁棒几何初始化相结合以实现高保真和高效3D重建的有效性。

🔬 方法详解

问题定义:论文旨在解决深度引导3D重建中存在的尺度漂移、多视角不一致以及高保真几何体重建需要大量优化的问题。现有方法通常依赖于耗时的优化过程,难以在效率和质量之间取得平衡。

核心思路:论文的核心思路是利用神经深度校正场(Neural Depth Correction field)来生成跨视角一致的深度图,从而为后续的3D重建提供一个高质量的几何初始化。通过这种方式,可以减少对大量优化的依赖,提高重建效率和质量。

技术框架:SwiftNDC框架主要包含以下几个阶段:1) 使用现有的深度估计方法获得初始深度图;2) 利用神经深度校正场对初始深度图进行优化,生成跨视角一致的深度图;3) 通过反投影和鲁棒的重投影误差过滤,从优化后的深度图中生成密集的点云;4) 将生成的点云作为3D高斯溅射(3DGS)的初始化,进行网格重建或新视角合成。

关键创新:该方法最重要的创新点在于提出了神经深度校正场,它能够学习深度图的误差分布,并生成跨视角一致的深度图。与传统的深度图优化方法相比,神经深度校正场能够更好地处理复杂的场景和光照变化,从而获得更准确的深度信息。

关键设计:神经深度校正场通常采用一个小的MLP网络,输入是像素坐标和初始深度值,输出是深度校正量。损失函数的设计至关重要,通常包括深度一致性损失、光度一致性损失等,以保证校正后的深度图在不同视角下的一致性和准确性。此外,鲁棒的重投影误差过滤也是关键步骤,用于去除噪声点,保证点云的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SwiftNDC在网格重建和新视角合成任务上均取得了显著的性能提升。在网格重建方面,SwiftNDC能够显著减少3DGS的优化迭代次数,同时获得高质量的表面。在新视角合成方面,SwiftNDC能够提高渲染保真度,生成更逼真的图像。在多个数据集上的综合评估证明了SwiftNDC的有效性和泛化能力。

🎯 应用场景

SwiftNDC可应用于自动驾驶、机器人导航、虚拟现实/增强现实、三维地图构建等领域。该方法能够快速生成高质量的3D模型,为这些应用提供可靠的环境感知和几何信息,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

Depth-guided 3D reconstruction has gained popularity as a fast alternative to optimization-heavy approaches, yet existing methods still suffer from scale drift, multi-view inconsistencies, and the need for substantial refinement to achieve high-fidelity geometry. Here, we propose SwiftNDC, a fast and general framework built around a Neural Depth Correction field that produces cross-view consistent depth maps. From these refined depths, we generate a dense point cloud through back-projection and robust reprojection-error filtering, obtaining a clean and uniformly distributed geometric initialization for downstream reconstruction. This reliable dense geometry substantially accelerates 3D Gaussian Splatting (3DGS) for mesh reconstruction, enabling high-quality surfaces with significantly fewer optimization iterations. For novel-view synthesis, SwiftNDC can also improve 3DGS rendering quality, highlighting the benefits of strong geometric initialization. We conduct a comprehensive study across five datasets, including two for mesh reconstruction, as well as three for novel-view synthesis. SwiftNDC consistently reduces running time for accurate mesh reconstruction and boosts rendering fidelity for view synthesis, demonstrating the effectiveness of combining neural depth refinement with robust geometric initialization for high-fidelity and efficient 3D reconstruction.