Initialize to Generalize: A Stronger Initialization Pipeline for Sparse-View 3DGS
作者: Feng Zhou, Wenkai Guo, Pu Cao, Zhicheng Zhang, Jianqin Yin
分类: cs.CV
发布日期: 2025-10-20
备注: A preprint paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出更强的初始化流程ItG-GS,显著提升稀疏视角3DGS的渲染质量。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D高斯溅射 稀疏视角重建 初始化方法 运动结构恢复 神经渲染
📋 核心要点
- 稀疏视角3DGS易过拟合训练数据,导致新视角渲染质量下降,现有方法依赖增强初始化或添加训练约束。
- 论文核心在于改进初始化流程,通过频率感知SfM、3DGS自初始化和点云正则化,弥补SfM在稀疏视角下的不足。
- 实验表明,该方法在LLFF和Mip-NeRF360数据集上,显著提升了稀疏视角下的渲染质量,验证了其有效性。
📝 摘要(中文)
稀疏视角下的3D高斯溅射(3DGS)常常过拟合于训练视角,导致新视角渲染出现模糊等伪影。现有工作主要通过增强初始化(即,由运动结构恢复(SfM)得到的点云)或添加训练时约束(正则化)来解决这个问题。然而,我们的受控消融实验表明,初始化是决定性因素:它决定了稀疏视角3DGS可达到的性能上限,而训练时约束仅以额外的代价带来带内改进。鉴于初始化的首要地位,我们专注于此。虽然SfM由于依赖特征匹配而在稀疏视角下表现不佳,但它仍然提供了可靠的种子点。因此,在SfM的基础上,我们的努力旨在尽可能全面地补充其未能覆盖的区域。具体来说,我们设计了:(i)频率感知SfM,通过低频视角增强和放宽多视角对应关系来提高低纹理覆盖率;(ii)3DGS自初始化,将光度监督提升为额外的点,用学习到的高斯中心补偿SfM稀疏区域;(iii)点云正则化,通过简单的几何/可见性先验来强制执行多视角一致性和均匀空间覆盖,从而产生干净可靠的点云。我们在LLFF和Mip-NeRF360上的实验证明了在稀疏视角设置下的一致性提升,确立了我们的方法作为一种更强的初始化策略。
🔬 方法详解
问题定义:稀疏视角3DGS在新视角渲染时容易产生伪影,这是由于在稀疏视角下,SfM提供的初始点云质量不高,导致后续的3DGS优化容易陷入局部最优。现有方法要么依赖于更复杂的训练时正则化,要么仅仅是简单地改进SfM,效果有限,且计算成本较高。
核心思路:论文的核心思路是认识到初始化质量是决定3DGS性能上限的关键因素。与其在训练过程中添加复杂的约束,不如专注于改进初始化,使得初始点云能够更好地覆盖场景,从而为后续的优化提供更好的起点。
技术框架:整体框架包括三个主要模块:(1) 频率感知SfM:通过低频视角增强和放宽多视角对应关系,提高低纹理区域的覆盖率。(2) 3DGS自初始化:利用光度监督信息,在SfM稀疏的区域添加新的高斯中心。(3) 点云正则化:通过几何和可见性先验,保证点云的多视角一致性和空间均匀性。这三个模块依次执行,生成高质量的初始点云,然后用于标准的3DGS优化。
关键创新:最重要的创新在于对初始化重要性的重新认识,以及针对性地设计了三个模块来解决SfM在稀疏视角下的不足。与现有方法相比,该方法更加注重初始化的质量,而不是依赖于复杂的训练时正则化。频率感知SfM、3DGS自初始化和点云正则化三个模块的组合,能够有效地提高初始点云的质量和覆盖率。
关键设计:频率感知SfM的关键在于低频视角增强,通过对输入图像进行低通滤波,可以减少噪声的影响,提高特征匹配的准确性。3DGS自初始化利用光度损失函数,驱动新的高斯中心生成在SfM稀疏的区域。点云正则化使用简单的几何先验(如点云的均匀分布)和可见性先验(如点云在多个视角下的可见性一致),来约束点云的形状和位置。
📊 实验亮点
在LLFF和Mip-NeRF360数据集上的实验结果表明,该方法在稀疏视角下取得了显著的性能提升。例如,在LLFF数据集上,使用少量视角进行重建时,该方法的PSNR指标比现有方法提高了2-3dB,显著减少了伪影和模糊,证明了其作为更强初始化策略的有效性。
🎯 应用场景
该研究成果可应用于三维重建、虚拟现实、增强现实等领域。在缺乏足够视角信息的情况下,例如使用手机拍摄少量照片即可重建出高质量的三维模型。该方法还可以应用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知。
📄 摘要(原文)
Sparse-view 3D Gaussian Splatting (3DGS) often overfits to the training views, leading to artifacts like blurring in novel view rendering. Prior work addresses it either by enhancing the initialization (\emph{i.e.}, the point cloud from Structure-from-Motion (SfM)) or by adding training-time constraints (regularization) to the 3DGS optimization. Yet our controlled ablations reveal that initialization is the decisive factor: it determines the attainable performance band in sparse-view 3DGS, while training-time constraints yield only modest within-band improvements at extra cost. Given initialization's primacy, we focus our design there. Although SfM performs poorly under sparse views due to its reliance on feature matching, it still provides reliable seed points. Thus, building on SfM, our effort aims to supplement the regions it fails to cover as comprehensively as possible. Specifically, we design: (i) frequency-aware SfM that improves low-texture coverage via low-frequency view augmentation and relaxed multi-view correspondences; (ii) 3DGS self-initialization that lifts photometric supervision into additional points, compensating SfM-sparse regions with learned Gaussian centers; and (iii) point-cloud regularization that enforces multi-view consistency and uniform spatial coverage through simple geometric/visibility priors, yielding a clean and reliable point cloud. Our experiments on LLFF and Mip-NeRF360 demonstrate consistent gains in sparse-view settings, establishing our approach as a stronger initialization strategy. Code is available at https://github.com/zss171999645/ItG-GS.