GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

作者: Tianyu Chen, Wei Xiang, Kang Han, Yu Lu, Di Wu, Gaowen Liu, Ramana Rao Kompella

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

GIFSplat：基于生成先验的迭代式前馈3D高斯溅射，从稀疏视角重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 前馈网络 迭代细化 生成先验 扩散模型 稀疏视角重建 神经渲染

📋 核心要点

现有前馈3D重建方法在稀疏视角下表现不佳，且引入生成先验后推理速度下降，限制了性能提升。
GIFSplat通过迭代式前馈残差更新，利用渲染信息逐步优化3D场景，平衡效率与质量。
该方法将冻结的扩散先验提炼为高斯级别的线索，实现场景自适应，同时保持前馈效率，无需梯度优化。

📝 摘要（中文）

本文提出GIFSplat，一个纯前馈的迭代细化框架，用于从稀疏、无位姿的视角进行3D高斯溅射。通过少量的仅前向残差更新，利用渲染证据逐步细化当前的3D场景，从而在效率和质量之间取得良好的平衡。此外，本文将一个冻结的扩散先验提炼成高斯级别的线索，这些线索来自增强的新视角渲染，无需梯度反向传播或不断增加的视角集合扩展，从而在保持前馈效率的同时，实现具有生成先验的场景自适应。在DL3DV、RealEstate10K和DTU数据集上，GIFSplat始终优于最先进的前馈基线，PSNR最多提高+2.1 dB，并且在不需要相机位姿或任何测试时梯度优化的情况下，保持了秒级的推理时间。

🔬 方法详解

问题定义：现有前馈3D重建方法，尤其是在稀疏视角下，性能有待提升。引入生成先验后，推理时间会显著增加，导致难以在实际应用中部署。现有方法通常采用一次性预测范式，模型容量受限，缺乏推理时的细化能力，并且不适合持续注入生成先验。

核心思路：GIFSplat的核心思路是通过迭代式的前馈残差更新来逐步细化3D场景。利用渲染证据，对当前场景进行微调，从而在效率和质量之间找到平衡点。此外，通过将预训练的扩散模型作为生成先验，并将其知识蒸馏到高斯级别的线索中，实现场景自适应，同时避免了昂贵的梯度优化和视角扩展。

技术框架：GIFSplat的整体框架包含以下几个主要阶段：1) 初始3D高斯表示的预测；2) 基于渲染证据的迭代式残差更新；3) 从扩散先验中提取高斯级别线索，用于指导场景细化。整个流程是纯前馈的，无需反向传播。

关键创新：GIFSplat的关键创新在于其迭代式前馈细化框架和生成先验的有效利用。与现有方法的一次性预测不同，GIFSplat通过多次迭代更新来逐步提高重建质量。此外，通过知识蒸馏的方式，将扩散模型的先验知识融入到高斯表示中，避免了直接使用扩散模型带来的计算开销。

关键设计：GIFSplat的关键设计包括：1) 残差更新模块，用于根据渲染误差调整高斯参数；2) 扩散先验蒸馏模块，用于从新视角渲染中提取高斯级别的线索；3) 损失函数，用于指导残差更新和先验蒸馏。具体的网络结构和参数设置需要参考论文原文。

🖼️ 关键图片

📊 实验亮点

GIFSplat在DL3DV、RealEstate10K和DTU数据集上均取得了优于现有前馈方法的性能。在PSNR指标上，相比于最先进的基线方法，GIFSplat最多提升了2.1 dB。此外，该方法在保持秒级推理速度的同时，无需相机位姿信息或测试时梯度优化。

🎯 应用场景

GIFSplat在三维重建领域具有广泛的应用前景，例如：虚拟现实、增强现实、机器人导航、自动驾驶、游戏开发等。该方法能够从稀疏视角高效地重建高质量的3D场景，降低了对数据采集的要求，并提高了重建速度，有望加速相关技术的普及和应用。

📄 摘要（原文）

Feed-forward 3D reconstruction offers substantial runtime advantages over per-scene optimization, which remains slow at inference and often fragile under sparse views. However, existing feed-forward methods still have potential for further performance gains, especially for out-of-domain data, and struggle to retain second-level inference time once a generative prior is introduced. These limitations stem from the one-shot prediction paradigm in existing feed-forward pipeline: models are strictly bounded by capacity, lack inference-time refinement, and are ill-suited for continuously injecting generative priors. We introduce GIFSplat, a purely feed-forward iterative refinement framework for 3D Gaussian Splatting from sparse unposed views. A small number of forward-only residual updates progressively refine current 3D scene using rendering evidence, achieve favorable balance between efficiency and quality. Furthermore, we distill a frozen diffusion prior into Gaussian-level cues from enhanced novel renderings without gradient backpropagation or ever-increasing view-set expansion, thereby enabling per-scene adaptation with generative prior while preserving feed-forward efficiency. Across DL3DV, RealEstate10K, and DTU, GIFSplat consistently outperforms state-of-the-art feed-forward baselines, improving PSNR by up to +2.1 dB, and it maintains second-scale inference time without requiring camera poses or any test-time gradient optimization.

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理