LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors

📄 arXiv: 2409.03456v3 📥 PDF

作者: Hanyang Yu, Xiaoxiao Long, Ping Tan

分类: cs.CV

发布日期: 2024-09-05 (更新: 2025-07-28)

备注: Project page: https://hanyangyu1021.github.io/lm-gaussian.github.io/


💡 一句话要点

LM-Gaussian:利用大模型先验提升稀疏视角3D高斯溅射重建效果

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 稀疏视角重建 大模型先验 扩散模型 立体视觉

📋 核心要点

  1. 现有3DGS方法依赖大量密集图像,限制了其在实际稀疏视角重建场景中的应用,易出现初始化失败和过拟合。
  2. LM-Gaussian利用立体先验进行鲁棒初始化,并结合图像和视频扩散先验迭代优化高斯参数,提升重建质量。
  3. 实验表明,LM-Gaussian在稀疏视角下能有效重建高质量3D场景,显著降低了数据采集需求。

📝 摘要(中文)

本文旨在利用大规模视觉模型的先验知识解决3D场景的稀疏视角重建问题。尽管3D高斯溅射(3DGS)等方法在3D重建方面取得了显著成功,但这些方法通常需要数百张密集捕捉场景的输入图像,这使得它们耗时且不适用于实际应用。然而,稀疏视角重建本质上是不适定的且欠约束的,通常导致较差和不完整的结果。这是由于初始化失败、对输入图像的过拟合以及缺乏细节等问题。为了缓解这些挑战,我们引入了LM-Gaussian,一种能够从有限数量的图像生成高质量重建的方法。具体来说,我们提出了一个鲁棒的初始化模块,该模块利用立体先验来帮助恢复相机姿态和可靠的点云。此外,迭代地应用基于扩散的细化,以将图像扩散先验合并到高斯优化过程中,从而保留复杂的场景细节。最后,我们利用视频扩散先验来进一步增强渲染图像,以获得逼真的视觉效果。总的来说,与之前的3DGS方法相比,我们的方法显著降低了数据采集要求。我们通过在各种公共数据集上的实验验证了我们框架的有效性,证明了其在高质量360度场景重建方面的潜力。

🔬 方法详解

问题定义:论文旨在解决在极少量的图像输入下,如何高质量地重建3D场景的问题。现有的3DGS方法需要大量的密集视角图像,这在实际应用中往往难以满足。在稀疏视角下,3D重建问题变得更加病态,容易出现初始化失败、过拟合以及细节缺失等问题。

核心思路:论文的核心思路是利用大规模视觉模型(Large Model)的先验知识来约束和指导3D高斯溅射的优化过程。具体来说,通过立体视觉先验进行初始化,并结合图像和视频扩散模型提供的先验信息,迭代地优化3D高斯参数,从而在稀疏视角下也能获得高质量的重建结果。这样设计的目的是为了弥补稀疏视角带来的信息不足,利用大模型的泛化能力来提升重建的鲁棒性和细节丰富度。

技术框架:LM-Gaussian的整体框架主要包含三个阶段:1) 鲁棒初始化:利用立体视觉先验估计相机姿态和初始点云;2) 扩散细化:迭代地将图像扩散先验融入高斯优化过程,以保留场景细节;3) 视频增强:利用视频扩散先验进一步增强渲染图像的真实感。整个流程通过交替优化高斯参数和利用扩散模型进行图像增强,逐步提升重建质量。

关键创新:该论文的关键创新在于将大规模视觉模型的先验知识引入到3D高斯溅射的优化过程中。与传统的3DGS方法相比,LM-Gaussian不再仅仅依赖于输入图像的信息,而是利用大模型学习到的通用场景知识来约束重建过程,从而在稀疏视角下也能获得更准确、更完整的重建结果。这种结合大模型先验的思路为解决稀疏视角3D重建问题提供了一种新的途径。

关键设计:在初始化阶段,论文利用立体匹配算法估计相机姿态和初始点云,并采用鲁棒的姿态估计方法来减少初始化误差。在扩散细化阶段,论文使用预训练的图像扩散模型作为先验,通过优化高斯参数使得渲染图像与扩散模型生成的图像尽可能一致。在视频增强阶段,论文使用预训练的视频扩散模型来提升渲染图像的时序一致性和真实感。具体的损失函数设计和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LM-Gaussian在稀疏视角下实现了高质量的3D场景重建,显著降低了数据采集需求。实验结果表明,该方法在多个公开数据集上优于现有的3DGS方法,尤其是在视角数量较少的情况下,重建质量提升明显。具体的性能数据和对比基线需要在论文中查找(未知)。

🎯 应用场景

LM-Gaussian在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。该方法能够利用少量图像快速重建高质量的3D场景,降低了数据采集成本,提高了重建效率。未来,该技术有望应用于移动设备的3D扫描、室内场景重建、以及大规模城市建模等任务。

📄 摘要(原文)

We aim to address sparse-view reconstruction of a 3D scene by leveraging priors from large-scale vision models. While recent advancements such as 3D Gaussian Splatting (3DGS) have demonstrated remarkable successes in 3D reconstruction, these methods typically necessitate hundreds of input images that densely capture the underlying scene, making them time-consuming and impractical for real-world applications. However, sparse-view reconstruction is inherently ill-posed and under-constrained, often resulting in inferior and incomplete outcomes. This is due to issues such as failed initialization, overfitting on input images, and a lack of details. To mitigate these challenges, we introduce LM-Gaussian, a method capable of generating high-quality reconstructions from a limited number of images. Specifically, we propose a robust initialization module that leverages stereo priors to aid in the recovery of camera poses and the reliable point clouds. Additionally, a diffusion-based refinement is iteratively applied to incorporate image diffusion priors into the Gaussian optimization process to preserve intricate scene details. Finally, we utilize video diffusion priors to further enhance the rendered images for realistic visual effects. Overall, our approach significantly reduces the data acquisition requirements compared to previous 3DGS methods. We validate the effectiveness of our framework through experiments on various public datasets, demonstrating its potential for high-quality 360-degree scene reconstruction. Visual results are on our website.