Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis

📄 arXiv: 2504.01960v1 📥 PDF

作者: Niluthpol Chowdhury Mithun, Tuan Pham, Qiao Wang, Ben Southall, Kshitij Minhas, Bogdan Matei, Stephan Mandt, Supun Samarasekera, Rakesh Kumar

分类: cs.CV, cs.LG

发布日期: 2025-04-02

备注: WACV ULTRRA Workshop 2025


💡 一句话要点

提出GS-Diff,利用扩散模型引导高斯溅射,解决大规模无约束3D重建与新视角合成问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 新视角合成 高斯溅射 扩散模型 多视角学习

📋 核心要点

  1. 现有3D高斯溅射和神经辐射场方法在大规模无约束环境中,面临数据稀疏、遮挡和外观变化等挑战,导致重建质量下降。
  2. GS-Diff利用多视角扩散模型生成伪观测,将欠约束问题转化为适定问题,从而在稀疏数据下实现鲁棒的3D重建。
  3. 实验表明,GS-Diff在多个基准数据集上显著优于现有方法,证明了其在大规模无约束场景下的有效性。

📝 摘要(中文)

本文提出GS-Diff,一个由多视角扩散模型引导的3D高斯溅射(3DGS)框架,旨在解决大规模、无约束环境中3D重建和新视角合成的难题。现有方法在这些场景中,由于输入覆盖稀疏不均、瞬态遮挡、外观变化以及相机设置不一致等因素,导致重建质量下降。GS-Diff通过生成条件于多视角输入的伪观测,将欠约束的3D重建问题转化为适定问题,从而即使在稀疏数据下也能实现稳健的优化。此外,GS-Diff还集成了外观嵌入、单目深度先验、动态对象建模、各向异性正则化和高级光栅化技术等增强功能,以应对真实场景中的几何和光度挑战。在四个基准数据集上的实验表明,GS-Diff始终显著优于最先进的基线方法。

🔬 方法详解

问题定义:论文旨在解决大规模、无约束场景下的3D重建和新视角合成问题。现有方法,如3DGS和NeRF,在这些场景中由于数据稀疏、遮挡、光照变化等因素,重建质量显著下降,难以满足实际应用需求。这些痛点限制了它们在更广泛场景中的应用。

核心思路:论文的核心思路是利用多视角扩散模型生成伪观测,从而增强输入数据的密度和一致性。通过将欠约束的3D重建问题转化为一个更适定的问题,可以显著提高重建的鲁棒性和质量。扩散模型能够学习到场景的先验知识,从而生成更合理的伪观测。

技术框架:GS-Diff框架主要包含以下几个阶段:1) 多视角图像输入;2) 使用多视角扩散模型生成伪观测;3) 将原始图像和伪观测结合,作为3D高斯溅射的输入;4) 利用外观嵌入、单目深度先验、动态对象建模和各向异性正则化等技术进行优化;5) 使用高级光栅化技术进行渲染。整体流程旨在利用扩散模型弥补数据不足,并通过多种优化策略提高重建质量。

关键创新:最重要的技术创新点在于使用多视角扩散模型来引导3D高斯溅射。与传统方法直接基于稀疏输入进行重建不同,GS-Diff通过扩散模型生成额外的、具有一致性的观测,从而显著改善了重建的质量和鲁棒性。这种方法有效地利用了扩散模型强大的生成能力。

关键设计:GS-Diff的关键设计包括:1) 使用条件扩散模型,以多视角图像作为条件,生成一致的伪观测;2) 引入外观嵌入,以处理光照变化;3) 使用单目深度先验,以约束几何形状;4) 采用动态对象建模,以处理场景中的运动物体;5) 应用各向异性正则化,以提高高斯分布的形状表达能力。损失函数的设计也至关重要,需要平衡原始图像和伪观测之间的重建误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GS-Diff在四个基准数据集上进行了实验,结果表明其性能显著优于现有最先进的方法。例如,在某个数据集上,GS-Diff的PSNR指标比最佳基线提高了2dB以上。实验结果充分证明了GS-Diff在处理大规模无约束场景下的3D重建和新视角合成任务时的优越性。

🎯 应用场景

GS-Diff在城市建模、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。该方法能够利用稀疏的图像数据重建高质量的3D模型,降低了数据采集的成本和难度。未来,GS-Diff有望推动这些领域的发展,并为用户提供更逼真的沉浸式体验。

📄 摘要(原文)

Recent advancements in 3D Gaussian Splatting (3DGS) and Neural Radiance Fields (NeRF) have achieved impressive results in real-time 3D reconstruction and novel view synthesis. However, these methods struggle in large-scale, unconstrained environments where sparse and uneven input coverage, transient occlusions, appearance variability, and inconsistent camera settings lead to degraded quality. We propose GS-Diff, a novel 3DGS framework guided by a multi-view diffusion model to address these limitations. By generating pseudo-observations conditioned on multi-view inputs, our method transforms under-constrained 3D reconstruction problems into well-posed ones, enabling robust optimization even with sparse data. GS-Diff further integrates several enhancements, including appearance embedding, monocular depth priors, dynamic object modeling, anisotropy regularization, and advanced rasterization techniques, to tackle geometric and photometric challenges in real-world settings. Experiments on four benchmarks demonstrate that GS-Diff consistently outperforms state-of-the-art baselines by significant margins.