Sparse-View 3D Gaussian Splatting in the Wild
作者: Wongi Park, Jordan A. James, Myeongseok Nam, Minjae Lee, Soomok Lee, Sang-Hyun Lee, William J. Beksi
分类: cs.CV
发布日期: 2026-04-30
备注: 18 pages, 14 figures, and 14 tables
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出一种稀疏视角下的3D高斯溅射方法,用于解决真实场景中的新视角合成问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 稀疏视角 扩散模型 视图细化 高斯复制 瞬态掩码
📋 核心要点
- 现有方法在稀疏视角下进行新视角合成时,难以处理真实场景中存在的瞬态元素和干扰因素。
- 该方法通过参考图像引导的视图细化和扩散模型,增强3D表示,并采用高斯复制策略来处理稀疏区域。
- 实验结果表明,该方法在PSNR、SSIM和LPIPS等指标上均优于现有方法,实现了高质量的3D渲染。
📝 摘要(中文)
本文提出了一种针对非约束真实场景的稀疏视角3D新视角合成框架,该场景包含干扰因素。与主要从稀疏的约束图像集中执行新视角合成,而不包含瞬态元素,或利用非约束密集图像集合来增强真实场景中的3D表示的现有方法不同,我们的方法不仅有效地处理了稀疏的非约束图像集合,而且显示出高质量的3D渲染结果。为此,我们引入了参考引导的视图细化,该细化使用扩散模型,利用瞬态掩码和参考图像来增强3D表示并减轻渲染视图中的伪影。此外,我们通过伪视图生成以及感知稀疏性的高斯复制策略来解决高斯场中的稀疏区域,以放大稀疏区域中的高斯分布。在公开数据集上进行的大量实验表明,我们的方法始终优于现有方法(例如,PSNR - 17.2%,SSIM - 10.8%,LPIPS - 4.0%),并提供高保真度的3D渲染结果。这一进步为实现非约束的真实场景铺平了道路,而无需进行劳动密集型数据采集。
🔬 方法详解
问题定义:论文旨在解决在稀疏视角下,真实场景中存在干扰因素时,如何高质量地进行3D新视角合成的问题。现有方法通常依赖于密集的图像集合或对场景进行严格约束,难以处理非约束的稀疏图像数据,并且容易受到瞬态元素的影响,导致渲染质量下降。
核心思路:论文的核心思路是利用参考图像引导的视图细化来增强3D表示,并采用扩散模型来减轻渲染伪影。同时,通过伪视图生成和稀疏感知的高斯复制策略来解决高斯场中的稀疏区域问题,从而提高渲染质量。
技术框架:整体框架包含以下几个主要模块:1) 3D高斯溅射初始化:使用稀疏的输入图像初始化3D高斯场。2) 参考引导的视图细化:利用参考图像和扩散模型,对渲染的视图进行细化,以增强3D表示并减少伪影。3) 瞬态掩码生成:生成瞬态掩码,用于区分场景中的静态和动态元素。4) 伪视图生成:在稀疏区域生成伪视图,以增加高斯分布的密度。5) 稀疏感知的高斯复制:根据稀疏程度,复制高斯分布,以增强稀疏区域的表示能力。
关键创新:论文的关键创新在于:1) 提出了参考引导的视图细化方法,利用扩散模型增强3D表示,有效减少了渲染伪影。2) 提出了稀疏感知的高斯复制策略,解决了高斯场中的稀疏区域问题,提高了渲染质量。3) 将瞬态掩码引入到新视角合成中,从而更好地处理真实场景中的动态元素。
关键设计:在参考引导的视图细化中,使用了扩散模型进行图像修复,损失函数包括L1损失、感知损失和对抗损失。在稀疏感知的高斯复制中,复制的数量与稀疏程度成正比。瞬态掩码的生成使用了预训练的分割模型,并进行了后处理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在公开数据集上显著优于现有方法,例如,PSNR提升了17.2%,SSIM提升了10.8%,LPIPS降低了4.0%。这些数据表明,该方法在稀疏视角下能够生成更高质量的3D渲染结果,有效地解决了真实场景中的新视角合成问题。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过稀疏的图像数据,可以重建高质量的3D场景,从而降低数据采集成本,并提高系统的鲁棒性和适应性。未来,该方法有望应用于更大规模、更复杂的真实场景。
📄 摘要(原文)
We propose a 3D novel sparse-view synthesis framework for unconstrained real-world scenarios that contain distractors. Unlike existing methods that primarily perform novel-view synthesis from a sparse set of constrained images without transient elements or leverage unconstrained dense image collections to enhance 3D representation in real-world scenarios, our method not only effectively tackles sparse unconstrained image collections, but also shows high-quality 3D rendering results. To do this, we introduce reference-guided view refinement with a diffusion model using a transient mask and a reference image to enhance the 3D representation and mitigate artifacts in rendered views. Furthermore, we address sparse regions in the Gaussian field via pseudo-view generation along with a sparsity-aware Gaussian replication strategy to amplify Gaussians in the sparse regions. Extensive experiments on publicly available datasets demonstrate that our methodology consistently outperforms existing methods (e.g., PSNR - 17.2%, SSIM - 10.8%, LPIPS - 4.0%) and provides high-fidelity 3D rendering results. This advancement paves the way for realizing unconstrained real-world scenarios without labor-intensive data acquisition. Our project page is available at $\href{https://robotic-vision-lab.github.io/SaveWildGS/}{here}$