Structure Consistent Gaussian Splatting with Matching Prior for Few-shot Novel View Synthesis

📄 arXiv: 2411.03637v1 📥 PDF

作者: Rui Peng, Wangze Xu, Luyang Tang, Liwei Liao, Jianbo Jiao, Ronggang Wang

分类: cs.CV

发布日期: 2024-11-06

备注: NeurIPS 2024 Accepted

🔗 代码/项目: GITHUB


💡 一句话要点

提出SCGaussian,利用匹配先验和结构一致性高斯溅射实现少样本新视角合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 少样本学习 3D高斯溅射 结构一致性 匹配先验 神经渲染 场景重建

📋 核心要点

  1. 现有NeRF和3DGS方法在少样本新视角合成中性能下降明显,尤其是在大型场景中,难以高效合成令人满意的结果。
  2. SCGaussian通过引入混合高斯表示,将部分高斯基元与匹配射线绑定,利用射线约束优化高斯基元的位置,从而学习3D一致的场景结构。
  3. 实验结果表明,SCGaussian在正向、环绕和复杂大型场景中均表现出优异的性能和效率,达到了state-of-the-art水平。

📝 摘要(中文)

本文提出了一种名为SCGaussian的结构一致性高斯溅射方法,该方法利用匹配先验来学习3D一致的场景结构,旨在解决现有基于神经辐射场(NeRF)或3D高斯溅射(3DGS)的新视角合成方法在输入稀疏时性能显著下降的问题。考虑到高斯属性之间的高度依赖性,我们从渲染几何和高斯基元的位置两个方面优化场景结构。由于传统3DGS的非结构化特性,高斯基元的位置难以直接约束。为此,我们提出了一种混合高斯表示,除了普通的非结构化高斯基元外,我们的模型还包含基于射线的,与匹配射线绑定的高斯基元,这些高斯基元的位置优化受到沿射线的约束。因此,我们可以利用匹配对应关系直接强制这些高斯基元的位置收敛到射线相交的表面点。在正向、环绕和复杂大型场景上的大量实验表明,我们的方法有效,具有最先进的性能和高效率。

🔬 方法详解

问题定义:现有基于NeRF和3DGS的新视角合成方法在输入视角稀疏的情况下,性能会显著下降,尤其是在大型场景中。这是因为缺乏足够的视角信息来约束场景的几何结构和外观,导致合成结果出现伪影或模糊。传统3DGS方法中,高斯基元的位置优化缺乏结构约束,难以保证场景结构的一致性。

核心思路:SCGaussian的核心思路是利用匹配先验来约束高斯基元的位置,从而学习3D一致的场景结构。具体来说,该方法引入了一种混合高斯表示,将部分高斯基元与匹配射线绑定,并约束这些高斯基元的位置沿射线方向移动。这样,就可以利用匹配对应关系来指导高斯基元的位置优化,使其收敛到场景表面点。

技术框架:SCGaussian的整体框架包括以下几个主要模块:1) 特征匹配模块:用于提取输入图像之间的特征匹配关系,得到匹配射线。2) 混合高斯表示模块:用于构建场景的混合高斯表示,包括非结构化高斯基元和基于射线的高斯基元。3) 渲染模块:用于将混合高斯表示渲染成图像。4) 优化模块:用于优化高斯基元的属性,包括位置、协方差、颜色等。优化过程同时考虑渲染损失和结构一致性损失。

关键创新:SCGaussian的关键创新在于引入了混合高斯表示和基于射线的结构约束。与传统的非结构化高斯表示相比,混合高斯表示能够更好地利用匹配先验信息,约束高斯基元的位置,从而提高场景结构的一致性。基于射线的结构约束能够直接利用匹配对应关系来指导高斯基元的位置优化,避免了传统方法中需要通过复杂的正则化项来间接约束结构的问题。

关键设计:SCGaussian的关键设计包括:1) 混合高斯表示中,基于射线的高斯基元的比例需要根据场景的稀疏程度进行调整。2) 结构一致性损失函数的设计需要平衡匹配射线约束的强度和渲染质量。3) 优化过程中,需要对不同类型的高斯基元采用不同的学习率,以保证优化过程的稳定性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCGaussian在多个数据集上取得了state-of-the-art的性能。例如,在forward-facing场景中,相比于baseline方法,SCGaussian在PSNR指标上提升了超过2dB,在SSIM指标上提升了超过0.05。此外,SCGaussian在大型复杂场景中也表现出良好的性能,证明了其在实际应用中的潜力。

🎯 应用场景

SCGaussian可应用于各种需要少样本新视角合成的场景,例如:机器人导航、自动驾驶、虚拟现实/增强现实、三维重建等。该方法能够利用少量图像快速生成高质量的新视角图像,提高系统的鲁棒性和效率,具有广泛的应用前景。

📄 摘要(原文)

Despite the substantial progress of novel view synthesis, existing methods, either based on the Neural Radiance Fields (NeRF) or more recently 3D Gaussian Splatting (3DGS), suffer significant degradation when the input becomes sparse. Numerous efforts have been introduced to alleviate this problem, but they still struggle to synthesize satisfactory results efficiently, especially in the large scene. In this paper, we propose SCGaussian, a Structure Consistent Gaussian Splatting method using matching priors to learn 3D consistent scene structure. Considering the high interdependence of Gaussian attributes, we optimize the scene structure in two folds: rendering geometry and, more importantly, the position of Gaussian primitives, which is hard to be directly constrained in the vanilla 3DGS due to the non-structure property. To achieve this, we present a hybrid Gaussian representation. Besides the ordinary non-structure Gaussian primitives, our model also consists of ray-based Gaussian primitives that are bound to matching rays and whose optimization of their positions is restricted along the ray. Thus, we can utilize the matching correspondence to directly enforce the position of these Gaussian primitives to converge to the surface points where rays intersect. Extensive experiments on forward-facing, surrounding, and complex large scenes show the effectiveness of our approach with state-of-the-art performance and high efficiency. Code is available at https://github.com/prstrive/SCGaussian.