2D-SuGaR: Surface-Aware Gaussian Splatting for Geometrically Accurate Mesh Reconstruction

📄 arXiv: 2605.00569v1 📥 PDF

作者: Prajwal Gupta C. R., Divyam Sheth, Jinjoo Ha, Mirela Ostrek, Justus Thies

分类: cs.CV, cs.GR

发布日期: 2026-05-01


💡 一句话要点

提出2D-SuGaR,利用单目深度和法向量先验提升2D高斯溅射的几何重建精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 2D高斯溅射 三维重建 单目深度估计 法向量估计 几何精度 视角一致性 深度先验 高斯修剪

📋 核心要点

  1. 现有2DGS方法依赖SfM初始化,在复杂场景下易产生较差的几何估计,影响重建质量。
  2. 2D-SuGaR利用单目深度和法向量先验,指导高斯初始化,并修剪退化高斯,提升几何精度和鲁棒性。
  3. 在DTU数据集上,2D-SuGaR在网格重建方面达到SOTA,同时保持高质量的新视角合成效果。

📝 摘要(中文)

3D高斯溅射(3DGS)已成为实时生成场景照片级渲染的强大技术。然而,3DGS的体绘制特性限制了其精确捕捉表面几何的能力。为了解决这个问题,提出了2D高斯溅射(2DGS),以实现多视角图像中视角一致且几何精确的表面重建。但是,2DGS对高斯基元的初始化非常敏感。依赖于运动结构(SfM)初始化,在具有挑战性的图像集上可能会产生较差的估计,从而导致次优的结果。在这项工作中,我们通过结合单目深度和法向量先验来增强2DGS,以提高几何精度和鲁棒性。我们提出了一种高斯深度引导初始化策略,并引入了一种基于聚类的技术来修剪退化的的高斯。我们在DTU数据集上评估了我们的方法,它在网格重建中实现了最先进的结果,同时保持了高质量的新视角合成。

🔬 方法详解

问题定义:2DGS虽然能够实现视角一致的表面重建,但其性能高度依赖于高斯基元的初始化。现有的方法通常依赖于Structure-from-Motion (SfM) 的结果进行初始化,而SfM在处理具有挑战性的图像集时,容易产生不准确的几何估计,从而导致2DGS重建结果不佳。因此,如何提升2DGS对初始化的鲁棒性,并提高几何重建的精度,是本文要解决的核心问题。

核心思路:本文的核心思路是利用单目深度和法向量作为先验信息,来指导高斯基元的初始化,并对退化的基元进行修剪。通过引入这些先验信息,可以有效地约束高斯基元的分布,使其更接近真实的表面几何,从而提高重建的精度和鲁棒性。此外,通过聚类方法修剪退化的高斯,可以减少冗余和噪声,进一步提升重建质量。

技术框架:2D-SuGaR的整体框架主要包含以下几个阶段:1) 单目深度和法向量估计:使用预训练的单目深度估计网络和法向量估计网络,从输入图像中提取深度和法向量信息。2) 深度引导的高斯初始化:利用估计的深度信息,初始化高斯基元的位置和尺度。3) 基于法向量的几何约束:将法向量信息融入到高斯基元的优化过程中,约束其方向与表面法向量一致。4) 基于聚类的退化高斯修剪:使用聚类算法识别并移除退化的高斯基元,减少冗余和噪声。5) 高斯基元优化:通过优化高斯基元的参数,实现视角一致的表面重建。

关键创新:本文最重要的技术创新在于将单目深度和法向量先验信息融入到2DGS框架中。与传统的依赖SfM初始化的方法相比,本文的方法能够更有效地利用图像信息,提高几何重建的精度和鲁棒性。此外,基于聚类的退化高斯修剪方法也是一个重要的创新点,它可以有效地减少冗余和噪声,提升重建质量。

关键设计:在深度引导的高斯初始化中,使用估计的深度值作为高斯基元的初始位置,并根据深度不确定性设置初始尺度。在基于法向量的几何约束中,使用法向量一致性损失函数来约束高斯基元的方向。在基于聚类的退化高斯修剪中,使用K-means算法对高斯基元的位置进行聚类,并将小簇中的高斯基元视为退化基元并移除。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在DTU数据集上的实验结果表明,2D-SuGaR在网格重建方面取得了state-of-the-art的性能。相比于现有的2DGS方法,2D-SuGaR在几何精度上有了显著的提升,同时保持了高质量的新视角合成效果。具体的数据指标(例如Chamfer Distance、F-score等)在论文中进行了详细的对比和分析,证明了该方法的有效性。

🎯 应用场景

2D-SuGaR在三维重建、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于创建高质量的三维模型,用于游戏开发、电影制作、文物保护等。此外,该技术还可以应用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知能力。未来,该技术有望进一步发展,实现更高效、更鲁棒的三维重建。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has emerged as a powerful technique for generating photorealistic renderings of a scene in real-time. However, the volumetric nature of 3DGS limits its ability to accurately capture surface geometry. To address this, 2D Gaussian Splatting (2DGS) was proposed to enable view-consistent and geometrically accurate surface reconstruction from multi-view images. However, 2DGS can be sensitive to the initialization of the Gaussian primitives. Reliance on Structure-from-Motion (SfM) initializations, which can produce poor estimates on challenging image sets, may lead to subpar results. In this work, we enhance 2DGS by incorporating monocular depth and normal priors to improve both geometric accuracy and robustness. We propose a depth-guided initialization strategy for Gaussians and introduce a clustering-based technique for pruning degenerate Gaussians. We evaluate our method on the DTU dataset, where it achieves state-of-the-art results in mesh reconstruction while preserving high-quality novel view synthesis.