Initialize to Generalize: A Stronger Initialization Pipeline for Sparse-View 3DGS
作者: Feng Zhou, Wenkai Guo, Pu Cao, Zhicheng Zhang, Jianqin Yin
分类: cs.CV
发布日期: 2025-10-20
备注: A preprint paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出更强的初始化流程ItG-GS,显著提升稀疏视角3DGS的重建质量
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 三维重建 稀疏视角 高斯溅射 初始化 运动结构恢复
📋 核心要点
- 稀疏视角3DGS易过拟合,导致新视角渲染质量下降,现有方法依赖增强初始化或添加训练约束,但效果有限。
- 论文核心在于改进初始化流程,通过频率感知SfM、3DGS自初始化和点云正则化,弥补SfM在稀疏视角下的不足。
- 实验表明,该方法在LLFF和Mip-NeRF360数据集上,显著提升了稀疏视角下的3DGS重建质量,验证了初始化策略的有效性。
📝 摘要(中文)
稀疏视角下的3D高斯溅射(3DGS)容易过拟合训练视角,导致新视角渲染出现模糊等伪影。现有方法通常通过增强初始化(即,来自运动结构恢复(SfM)的点云)或添加训练时约束(正则化)来解决此问题。然而,我们的受控消融实验表明,初始化是决定性因素:它决定了稀疏视角3DGS可达到的性能上限,而训练时约束仅以额外的成本带来带内改进。鉴于初始化的首要地位,我们专注于此进行设计。虽然SfM由于依赖特征匹配而在稀疏视角下表现不佳,但它仍然提供了可靠的种子点。因此,在SfM的基础上,我们的努力旨在尽可能全面地补充其未能覆盖的区域。具体来说,我们设计了:(i)频率感知SfM,通过低频视角增强和放宽多视角对应关系来提高低纹理覆盖率;(ii)3DGS自初始化,将光度监督提升为额外的点,用学习到的高斯中心补偿SfM稀疏区域;以及(iii)点云正则化,通过简单的几何/可见性先验来强制执行多视角一致性和均匀空间覆盖,从而产生干净可靠的点云。我们在LLFF和Mip-NeRF360上的实验证明了在稀疏视角设置下的一致增益,从而确立了我们的方法作为更强的初始化策略。
🔬 方法详解
问题定义:现有稀疏视角3DGS方法在新视角渲染时容易出现过拟合,导致图像模糊等伪影。虽然可以通过增强初始化或添加训练时约束来缓解,但初始化质量是决定性能上限的关键因素。传统的SfM方法在稀疏视角下表现不佳,无法提供高质量的初始化点云。
核心思路:论文的核心思路是改进初始化流程,充分利用SfM提供的可靠种子点,并通过一系列策略来补充SfM未能覆盖的区域,从而生成更全面、更可靠的初始点云。这种方法强调了初始化在稀疏视角3DGS中的重要性,并针对性地解决了SfM在稀疏视角下的局限性。
技术框架:整体框架包含三个主要模块:(1) 频率感知SfM:通过低频视角增强和放宽多视角对应关系,提高低纹理区域的覆盖率。(2) 3DGS自初始化:利用光度监督信息,在SfM稀疏区域添加学习到的高斯中心,补偿SfM的不足。(3) 点云正则化:通过几何和可见性先验,强制执行多视角一致性和均匀空间覆盖,生成干净可靠的点云。这三个模块协同工作,共同提升初始化点云的质量。
关键创新:论文的关键创新在于提出了一个完整的初始化流程,该流程不仅利用了SfM的优势,还通过频率感知、自初始化和正则化等手段,有效地弥补了SfM在稀疏视角下的不足。与现有方法相比,该方法更注重初始化的质量,并针对性地解决了SfM在稀疏视角下的问题。
关键设计:(1) 频率感知SfM:采用低频视角增强,以提高低纹理区域的特征匹配成功率。放宽多视角对应关系,允许更大的匹配误差。(2) 3DGS自初始化:通过最小化渲染图像与真实图像之间的光度误差,学习高斯中心的位置和属性。(3) 点云正则化:使用几何先验(如点云的均匀分布)和可见性先验(如点云在多个视角下的可见性一致性)来约束点云的形状和结构。具体的损失函数设计和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在LLFF和Mip-NeRF360数据集上,相比于现有方法,在稀疏视角下取得了显著的性能提升。例如,在LLFF数据集上,该方法在PSNR、SSIM和LPIPS等指标上均优于其他方法,证明了其在稀疏视角3DGS重建中的有效性。
🎯 应用场景
该研究成果可应用于三维重建、虚拟现实、增强现实、机器人导航等领域。尤其在缺乏足够视角信息的情况下,例如在室内场景重建、文物数字化等场景中,该方法能够提供更高质量的三维模型,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Sparse-view 3D Gaussian Splatting (3DGS) often overfits to the training views, leading to artifacts like blurring in novel view rendering. Prior work addresses it either by enhancing the initialization (\emph{i.e.}, the point cloud from Structure-from-Motion (SfM)) or by adding training-time constraints (regularization) to the 3DGS optimization. Yet our controlled ablations reveal that initialization is the decisive factor: it determines the attainable performance band in sparse-view 3DGS, while training-time constraints yield only modest within-band improvements at extra cost. Given initialization's primacy, we focus our design there. Although SfM performs poorly under sparse views due to its reliance on feature matching, it still provides reliable seed points. Thus, building on SfM, our effort aims to supplement the regions it fails to cover as comprehensively as possible. Specifically, we design: (i) frequency-aware SfM that improves low-texture coverage via low-frequency view augmentation and relaxed multi-view correspondences; (ii) 3DGS self-initialization that lifts photometric supervision into additional points, compensating SfM-sparse regions with learned Gaussian centers; and (iii) point-cloud regularization that enforces multi-view consistency and uniform spatial coverage through simple geometric/visibility priors, yielding a clean and reliable point cloud. Our experiments on LLFF and Mip-NeRF360 demonstrate consistent gains in sparse-view settings, establishing our approach as a stronger initialization strategy. Code is available at https://github.com/zss171999645/ItG-GS.