GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views
作者: Tianyu Chen, Wei Xiang, Kang Han, Yu Lu, Di Wu, Gaowen Liu, Ramana Rao Kompella
分类: cs.CV
发布日期: 2026-02-26
💡 一句话要点
GIFSplat:基于生成先验的迭代式前馈3D高斯溅射,从稀疏视角重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 高斯溅射 前馈网络 迭代细化 生成先验 稀疏视角 扩散模型
📋 核心要点
- 现有前馈3D重建方法在稀疏视角下性能受限,且引入生成先验后推理速度下降,原因是其一次性预测范式存在容量限制,缺乏推理时细化。
- GIFSplat通过迭代式残差更新,利用渲染信息逐步细化3D场景,平衡了效率和质量,并能持续注入生成先验。
- 实验结果表明,GIFSplat在多个数据集上超越了现有前馈方法,PSNR提升高达2.1dB,且保持了秒级推理速度,无需相机位姿或测试时优化。
📝 摘要(中文)
本文提出GIFSplat,一个纯前馈的迭代细化框架,用于从稀疏、无位姿的视角进行3D高斯溅射。通过少量的仅前向残差更新,利用渲染证据逐步细化当前的3D场景,从而在效率和质量之间取得良好的平衡。此外,本文将一个冻结的扩散先验提炼成高斯级别的线索,这些线索来自增强的新视角渲染,无需梯度反向传播或不断增加的视角集合扩展,从而在保持前馈效率的同时,实现具有生成先验的场景自适应。在DL3DV、RealEstate10K和DTU数据集上,GIFSplat始终优于最先进的前馈基线,PSNR最多提高+2.1 dB,并且在不需要相机位姿或任何测试时梯度优化的情况下,保持了秒级的推理时间。
🔬 方法详解
问题定义:现有前馈3D重建方法,尤其是在稀疏视角下,性能提升空间有限。引入生成先验后,推理速度会显著下降。这是因为现有方法采用一次性预测范式,模型容量受限,且缺乏推理时的迭代细化过程,难以有效利用生成先验。
核心思路:GIFSplat的核心思路是采用迭代式的前馈细化框架。通过少量的前向残差更新,逐步利用渲染证据来优化3D场景。这种迭代方式允许模型在推理时进行细化,从而克服了传统前馈方法的容量限制,并能更有效地融入生成先验。
技术框架:GIFSplat的整体框架包含以下几个主要阶段:1) 初始3D场景预测:使用一个前馈网络从稀疏视角预测初始的3D高斯溅射场景。2) 渲染:将当前3D场景渲染成新视角图像。3) 残差预测:使用另一个前馈网络,基于渲染图像预测3D高斯溅射参数的残差。4) 更新:将预测的残差加到当前的3D场景参数上,进行场景更新。5) 迭代:重复渲染、残差预测和更新步骤,进行多次迭代细化。此外,还包含一个生成先验蒸馏模块,用于将冻结的扩散模型知识迁移到高斯级别。
关键创新:GIFSplat的关键创新在于其迭代式前馈细化框架和生成先验的有效融入。与传统的一次性前馈方法不同,GIFSplat通过迭代细化,逐步提升重建质量。同时,通过将冻结的扩散模型知识蒸馏到高斯级别,实现了在保持前馈效率的同时,利用生成先验进行场景自适应。这种方法避免了梯度反向传播和视角集合的不断扩展。
关键设计:GIFSplat的关键设计包括:1) 残差预测网络结构:用于预测3D高斯溅射参数的残差。2) 迭代次数:控制迭代细化的次数,需要在效率和质量之间进行权衡。3) 生成先验蒸馏方法:将冻结的扩散模型知识迁移到高斯级别,具体方法未知。4) 损失函数:用于指导残差预测网络的训练,可能包括渲染损失和正则化项。
🖼️ 关键图片
📊 实验亮点
GIFSplat在DL3DV、RealEstate10K和DTU等数据集上取得了显著的性能提升。例如,在DL3DV数据集上,GIFSplat的PSNR指标比最先进的前馈基线提高了高达2.1dB。更重要的是,GIFSplat在保持秒级推理速度的同时,无需相机位姿信息或测试时梯度优化,显著提升了重建效率。
🎯 应用场景
GIFSplat具有广泛的应用前景,包括:快速3D重建、虚拟现实/增强现实、机器人导航、自动驾驶等。该方法能够在稀疏视角下高效地重建高质量的3D场景,无需相机位姿信息,降低了应用门槛。未来,GIFSplat有望应用于大规模场景重建、动态场景建模等领域。
📄 摘要(原文)
Feed-forward 3D reconstruction offers substantial runtime advantages over per-scene optimization, which remains slow at inference and often fragile under sparse views. However, existing feed-forward methods still have potential for further performance gains, especially for out-of-domain data, and struggle to retain second-level inference time once a generative prior is introduced. These limitations stem from the one-shot prediction paradigm in existing feed-forward pipeline: models are strictly bounded by capacity, lack inference-time refinement, and are ill-suited for continuously injecting generative priors. We introduce GIFSplat, a purely feed-forward iterative refinement framework for 3D Gaussian Splatting from sparse unposed views. A small number of forward-only residual updates progressively refine current 3D scene using rendering evidence, achieve favorable balance between efficiency and quality. Furthermore, we distill a frozen diffusion prior into Gaussian-level cues from enhanced novel renderings without gradient backpropagation or ever-increasing view-set expansion, thereby enabling per-scene adaptation with generative prior while preserving feed-forward efficiency. Across DL3DV, RealEstate10K, and DTU, GIFSplat consistently outperforms state-of-the-art feed-forward baselines, improving PSNR by up to +2.1 dB, and it maintains second-scale inference time without requiring camera poses or any test-time gradient optimization.