GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

📄 arXiv: 2602.22571 📥 PDF

作者: Tianyu Chen, Wei Xiang, Kang Han, Yu Lu, Di Wu, Gaowen Liu, Ramana Rao Kompella

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

GIFSplat:基于生成先验的迭代式前馈3D高斯溅射,从稀疏视角重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 前馈网络 迭代细化 生成先验 扩散模型 稀疏视角重建 神经渲染

📋 核心要点

  1. 现有前馈3D重建方法在稀疏视角下表现不佳,且引入生成先验后推理速度下降,限制了性能提升。
  2. GIFSplat通过迭代式前馈残差更新,利用渲染信息逐步优化3D场景,平衡效率与质量。
  3. 该方法将冻结的扩散先验提炼为高斯级别的线索,实现场景自适应,同时保持前馈效率,无需梯度优化。

📝 摘要(中文)

本文提出GIFSplat,一个纯前馈的迭代细化框架,用于从稀疏、无位姿的视角进行3D高斯溅射。通过少量的仅前向残差更新,利用渲染证据逐步细化当前的3D场景,从而在效率和质量之间取得良好的平衡。此外,本文将一个冻结的扩散先验提炼成高斯级别的线索,这些线索来自增强的新视角渲染,无需梯度反向传播或不断增加的视角集合扩展,从而在保持前馈效率的同时,实现具有生成先验的场景自适应。在DL3DV、RealEstate10K和DTU数据集上,GIFSplat始终优于最先进的前馈基线,PSNR最多提高+2.1 dB,并且在不需要相机位姿或任何测试时梯度优化的情况下,保持了秒级的推理时间。

🔬 方法详解

问题定义:现有前馈3D重建方法,尤其是在稀疏视角下,性能有待提升。引入生成先验后,推理时间会显著增加,导致难以在实际应用中部署。现有方法通常采用一次性预测范式,模型容量受限,缺乏推理时的细化能力,并且不适合持续注入生成先验。

核心思路:GIFSplat的核心思路是通过迭代式的前馈残差更新来逐步细化3D场景。利用渲染证据,对当前场景进行微调,从而在效率和质量之间找到平衡点。此外,通过将预训练的扩散模型作为生成先验,并将其知识蒸馏到高斯级别的线索中,实现场景自适应,同时避免了昂贵的梯度优化和视角扩展。

技术框架:GIFSplat的整体框架包含以下几个主要阶段:1) 初始3D高斯表示的预测;2) 基于渲染证据的迭代式残差更新;3) 从扩散先验中提取高斯级别线索,用于指导场景细化。整个流程是纯前馈的,无需反向传播。

关键创新:GIFSplat的关键创新在于其迭代式前馈细化框架和生成先验的有效利用。与现有方法的一次性预测不同,GIFSplat通过多次迭代更新来逐步提高重建质量。此外,通过知识蒸馏的方式,将扩散模型的先验知识融入到高斯表示中,避免了直接使用扩散模型带来的计算开销。

关键设计:GIFSplat的关键设计包括:1) 残差更新模块,用于根据渲染误差调整高斯参数;2) 扩散先验蒸馏模块,用于从新视角渲染中提取高斯级别的线索;3) 损失函数,用于指导残差更新和先验蒸馏。具体的网络结构和参数设置需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GIFSplat在DL3DV、RealEstate10K和DTU数据集上均取得了优于现有前馈方法的性能。在PSNR指标上,相比于最先进的基线方法,GIFSplat最多提升了2.1 dB。此外,该方法在保持秒级推理速度的同时,无需相机位姿信息或测试时梯度优化。

🎯 应用场景

GIFSplat在三维重建领域具有广泛的应用前景,例如:虚拟现实、增强现实、机器人导航、自动驾驶、游戏开发等。该方法能够从稀疏视角高效地重建高质量的3D场景,降低了对数据采集的要求,并提高了重建速度,有望加速相关技术的普及和应用。

📄 摘要(原文)

Feed-forward 3D reconstruction offers substantial runtime advantages over per-scene optimization, which remains slow at inference and often fragile under sparse views. However, existing feed-forward methods still have potential for further performance gains, especially for out-of-domain data, and struggle to retain second-level inference time once a generative prior is introduced. These limitations stem from the one-shot prediction paradigm in existing feed-forward pipeline: models are strictly bounded by capacity, lack inference-time refinement, and are ill-suited for continuously injecting generative priors. We introduce GIFSplat, a purely feed-forward iterative refinement framework for 3D Gaussian Splatting from sparse unposed views. A small number of forward-only residual updates progressively refine current 3D scene using rendering evidence, achieve favorable balance between efficiency and quality. Furthermore, we distill a frozen diffusion prior into Gaussian-level cues from enhanced novel renderings without gradient backpropagation or ever-increasing view-set expansion, thereby enabling per-scene adaptation with generative prior while preserving feed-forward efficiency. Across DL3DV, RealEstate10K, and DTU, GIFSplat consistently outperforms state-of-the-art feed-forward baselines, improving PSNR by up to +2.1 dB, and it maintains second-scale inference time without requiring camera poses or any test-time gradient optimization.