OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting
作者: Atakan Topaloglu, Kunyi Li, Michael Niemeyer, Nassir Navab, A. Murat Tekalp, Federico Tombari
分类: cs.CV
发布日期: 2025-09-27 (更新: 2025-10-04)
备注: Project page available at: https://atakan-topaloglu.github.io/oraclegs/
💡 一句话要点
OracleGS:利用生成先验进行稀疏视角高斯溅射,提升新视角合成质量。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 高斯溅射 生成模型 多视角立体 不确定性估计 稀疏视角 3D重建
📋 核心要点
- 稀疏视角新视角合成面临严重的几何歧义,现有回归模型几何保真但场景不完整,生成模型能补全场景但结构不一致。
- OracleGS利用预训练的3D感知扩散模型生成新视角,并使用多视角立体模型作为3D Oracle验证生成视角的不确定性。
- 通过不确定性加权损失指导3D高斯溅射模型优化,在Mip-NeRF 360和NeRF Synthetic数据集上超越现有方法。
📝 摘要(中文)
本文提出OracleGS,一个新颖的框架,旨在调和生成模型的完备性和回归模型的保真性,用于稀疏视角下的高斯溅射。该框架并非使用生成模型修补不完整的重建,而是采用“提议-验证”策略:首先利用预训练的3D感知扩散模型合成新视角,从而提议一个完整的场景。然后,将多视角立体(MVS)模型重新用作3D感知的Oracle,验证生成视角的3D不确定性,利用其注意力图揭示生成视角被多视角证据充分支持的区域,以及由于遮挡、缺乏纹理或直接不一致而导致的高不确定性区域。这种不确定性信号通过不确定性加权损失直接指导3D高斯溅射模型的优化。该方法将强大的生成先验建立在多视角几何证据的基础上,过滤掉幻觉伪影,同时保留欠约束区域中合理的补全,在Mip-NeRF 360和NeRF Synthetic等数据集上优于最先进的方法。
🔬 方法详解
问题定义:稀疏视角新视角合成问题,即仅给定少量视角图像,如何生成高质量的任意视角图像。现有方法,如纯回归模型,虽然能保证几何一致性,但在稀疏视角下重建结果往往不完整。而生成模型虽然可以补全场景,但容易引入结构上的不一致性,产生幻觉伪影。
核心思路:论文的核心思路是结合生成模型和回归模型的优点,利用生成模型提供场景的先验知识,然后利用回归模型(MVS)提供的几何约束来验证和修正生成结果,从而在保证场景完整性的同时,避免引入不一致的结构。
技术框架:OracleGS框架包含两个主要阶段:提议阶段和验证阶段。在提议阶段,使用预训练的3D感知扩散模型生成新视角图像,从而得到一个完整的场景提议。在验证阶段,使用多视角立体(MVS)模型作为3D Oracle,评估生成视角的3D不确定性。MVS模型的注意力图被用来指示哪些区域具有良好的多视角支持,哪些区域由于遮挡或缺乏纹理而具有高不确定性。最后,使用一个不确定性加权损失来优化3D高斯溅射模型。
关键创新:最重要的创新点在于将生成模型和回归模型以一种互补的方式结合起来。不是简单地使用生成模型来修补不完整的重建,而是利用生成模型提供场景的先验知识,然后利用回归模型提供的几何约束来验证和修正生成结果。这种“提议-验证”的框架能够有效地利用两种模型的优点,避免它们的缺点。
关键设计:关键设计包括:1) 使用预训练的3D感知扩散模型,例如,确保生成的新视角图像具有较好的视觉质量和3D一致性。2) 使用MVS模型的注意力图作为不确定性度量,注意力值低的区域被认为是高不确定性区域。3) 使用不确定性加权损失来优化3D高斯溅射模型,高不确定性区域的损失权重较低,从而避免模型过度拟合这些区域。
🖼️ 关键图片
📊 实验亮点
OracleGS在Mip-NeRF 360和NeRF Synthetic数据集上取得了显著的性能提升。实验结果表明,OracleGS能够生成更完整、更一致的新视角图像,尤其是在稀疏视角的情况下。具体性能数据未知,但论文强调了该方法超越了现有最先进的方法。
🎯 应用场景
OracleGS在机器人导航、自动驾驶、虚拟现实/增强现实、以及三维重建等领域具有广泛的应用前景。该方法能够利用有限的视角信息生成高质量的新视角图像,从而提高机器人对环境的感知能力,增强虚拟现实/增强现实的沉浸感,并加速三维重建的过程。此外,该方法还可以应用于文物保护和医学影像等领域。
📄 摘要(原文)
Sparse-view novel view synthesis is fundamentally ill-posed due to severe geometric ambiguity. Current methods are caught in a trade-off: regressive models are geometrically faithful but incomplete, whereas generative models can complete scenes but often introduce structural inconsistencies. We propose OracleGS, a novel framework that reconciles generative completeness with regressive fidelity for sparse view Gaussian Splatting. Instead of using generative models to patch incomplete reconstructions, our "propose-and-validate" framework first leverages a pre-trained 3D-aware diffusion model to synthesize novel views to propose a complete scene. We then repurpose a multi-view stereo (MVS) model as a 3D-aware oracle to validate the 3D uncertainties of generated views, using its attention maps to reveal regions where the generated views are well-supported by multi-view evidence versus where they fall into regions of high uncertainty due to occlusion, lack of texture, or direct inconsistency. This uncertainty signal directly guides the optimization of a 3D Gaussian Splatting model via an uncertainty-weighted loss. Our approach conditions the powerful generative prior on multi-view geometric evidence, filtering hallucinatory artifacts while preserving plausible completions in under-constrained regions, outperforming state-of-the-art methods on datasets including Mip-NeRF 360 and NeRF Synthetic.