D$^2$GS: Dense Depth Regularization for LiDAR-free Urban Scene Reconstruction

📄 arXiv: 2510.25173v2 📥 PDF

作者: Kejing Xia, Jidong Jia, Ke Jin, Yucai Bai, Li Sun, Dacheng Tao, Youjian Zhang

分类: cs.CV

发布日期: 2025-10-29 (更新: 2025-11-02)


💡 一句话要点

提出D$^2$GS,一种无需激光雷达的城市场景高精度重建方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 城市场景重建 高斯溅射 深度估计 深度增强 无激光雷达 自动驾驶 三维重建

📋 核心要点

  1. 现有城市重建方法依赖激光雷达,但其数据获取和标定成本高昂,且存在空间不对齐问题。
  2. D$^2$GS通过多视角深度预测初始化稠密点云,并利用深度增强器和高斯优化提升几何精度。
  3. 实验表明,D$^2$GS在Waymo数据集上优于现有方法,即使与使用真值激光雷达的方法相比亦然。

📝 摘要(中文)

本文提出D$^2$GS,一个无需激光雷达的城市场景重建框架。现有城市场景重建方法通常依赖激光雷达和图像等多模态传感器作为输入。虽然激光雷达点云提供的几何先验可以很大程度上缓解重建中的病态性,但获取精确的激光雷达数据在实践中仍然具有挑战性:i) 需要激光雷达和其他传感器之间精确的时空校准,因为它们可能无法同时捕获数据;ii) 当激光雷达和相机安装在不同的位置时,会出现由空间不对齐引起的反投影误差。为了避免获取精确激光雷达数据的困难,我们提出D$^2$GS。该方法通过反投影多视角深度预测初始化稠密点云,并使用渐进剪枝策略优化全局一致性。此外,通过深度增强器联合优化高斯几何和预测的稠密深度,利用深度基础模型的扩散先验来增强高斯渲染的深度图,反过来,增强的深度为高斯训练提供更强的几何约束。最后,通过约束道路区域内高斯的形状和法线属性来提高地面几何的精度。在Waymo数据集上的大量实验表明,我们的方法始终优于最先进的方法,即使与使用真实激光雷达数据的方法相比,也能产生更精确的几何形状。

🔬 方法详解

问题定义:现有基于高斯溅射(Gaussian Splatting, GS)的城市场景重建方法依赖于激光雷达数据提供几何先验。然而,激光雷达数据获取成本高,需要精确的时空标定,且由于激光雷达和相机位置不同,存在反投影误差,影响重建精度。因此,如何在不依赖激光雷达的情况下,实现高精度的城市场景重建是一个挑战。

核心思路:D$^2$GS的核心思路是利用多视角深度预测来初始化稠密点云,并结合深度增强器和高斯溅射优化,从而在没有激光雷达数据的情况下,获得高质量的几何先验。通过深度增强器,利用深度扩散模型提供的先验知识,提升深度预测的准确性,进而约束高斯溅射的优化过程。

技术框架:D$^2$GS框架主要包含三个阶段:1) 稠密点云初始化:通过多视角深度预测反投影得到初始点云,并使用渐进剪枝策略优化全局一致性。2) 深度增强与高斯优化:利用深度增强器联合优化高斯几何和预测的稠密深度,其中深度增强器利用深度扩散模型提供的先验知识提升深度预测的准确性。3) 地面几何优化:通过约束道路区域内高斯的形状和法线属性来提高地面几何的精度。

关键创新:D$^2$GS的关键创新在于:1) 提出了一种无需激光雷达的城市场景重建方法,降低了数据获取成本和标定难度。2) 引入深度增强器,利用深度扩散模型提供的先验知识,提升深度预测的准确性,从而为高斯溅射优化提供更强的几何约束。3) 针对城市道路场景,设计了地面几何优化策略,进一步提升了重建精度。

关键设计:1) 渐进剪枝策略:用于优化初始点云的全局一致性,逐步去除冗余或错误的点。2) 深度增强器:利用深度扩散模型,例如Stable Diffusion,作为深度先验,增强渲染深度图的质量。3) 地面几何约束:通过约束道路区域内高斯的形状和法线属性,例如法线方向与垂直方向对齐,来提高地面几何的精度。损失函数中包含深度一致性损失、渲染损失和几何约束损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

D$^2$GS在Waymo Open Dataset上进行了评估,实验结果表明,该方法在几何精度上优于现有的最先进方法,甚至超过了使用真实激光雷达数据的重建结果。具体而言,D$^2$GS在重建精度和完整性方面均取得了显著提升,证明了其在无需激光雷达的情况下实现高精度城市场景重建的有效性。

🎯 应用场景

D$^2$GS可应用于自动驾驶、城市建模、虚拟现实等领域。无需激光雷达降低了系统成本和复杂性,使得在资源受限或激光雷达数据难以获取的场景下进行高精度三维重建成为可能。该方法有望推动自动驾驶系统在复杂城市环境中的感知能力,并为城市规划和管理提供更精确的三维模型。

📄 摘要(原文)

Recently, Gaussian Splatting (GS) has shown great potential for urban scene reconstruction in the field of autonomous driving. However, current urban scene reconstruction methods often depend on multimodal sensors as inputs, \textit{i.e.} LiDAR and images. Though the geometry prior provided by LiDAR point clouds can largely mitigate ill-posedness in reconstruction, acquiring such accurate LiDAR data is still challenging in practice: i) precise spatiotemporal calibration between LiDAR and other sensors is required, as they may not capture data simultaneously; ii) reprojection errors arise from spatial misalignment when LiDAR and cameras are mounted at different locations. To avoid the difficulty of acquiring accurate LiDAR depth, we propose D$^2$GS, a LiDAR-free urban scene reconstruction framework. In this work, we obtain geometry priors that are as effective as LiDAR while being denser and more accurate. $\textbf{First}$, we initialize a dense point cloud by back-projecting multi-view metric depth predictions. This point cloud is then optimized by a Progressive Pruning strategy to improve the global consistency. $\textbf{Second}$, we jointly refine Gaussian geometry and predicted dense metric depth via a Depth Enhancer. Specifically, we leverage diffusion priors from a depth foundation model to enhance the depth maps rendered by Gaussians. In turn, the enhanced depths provide stronger geometric constraints during Gaussian training. $\textbf{Finally}$, we improve the accuracy of ground geometry by constraining the shape and normal attributes of Gaussians within road regions. Extensive experiments on the Waymo dataset demonstrate that our method consistently outperforms state-of-the-art methods, producing more accurate geometry even when compared with those using ground-truth LiDAR data.