GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

作者: Tianyu Chen, Wei Xiang, Kang Han, Yu Lu, Di Wu, Gaowen Liu, Ramana Rao Kompella

分类: cs.CV

发布日期: 2026-02-26

💡 一句话要点

GIFSplat：基于生成先验的迭代式前馈3D高斯溅射，从稀疏视角重建。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 高斯溅射 前馈网络 迭代细化 生成先验 稀疏视角 扩散模型

📋 核心要点

现有前馈3D重建方法在稀疏视角下性能受限，且引入生成先验后推理速度下降，原因是其一次性预测范式存在容量限制，缺乏推理时细化。
GIFSplat通过迭代式残差更新，利用渲染信息逐步细化3D场景，平衡了效率和质量，并能持续注入生成先验。
实验结果表明，GIFSplat在多个数据集上超越了现有前馈方法，PSNR提升高达2.1dB，且保持了秒级推理速度，无需相机位姿或测试时优化。

📝 摘要（中文）

本文提出GIFSplat，一个纯前馈的迭代细化框架，用于从稀疏、无位姿的视角进行3D高斯溅射。通过少量的仅前向残差更新，利用渲染证据逐步细化当前的3D场景，从而在效率和质量之间取得良好的平衡。此外，本文将一个冻结的扩散先验提炼成高斯级别的线索，这些线索来自增强的新视角渲染，无需梯度反向传播或不断增加的视角集合扩展，从而在保持前馈效率的同时，实现具有生成先验的场景自适应。在DL3DV、RealEstate10K和DTU数据集上，GIFSplat始终优于最先进的前馈基线，PSNR最多提高+2.1 dB，并且在不需要相机位姿或任何测试时梯度优化的情况下，保持了秒级的推理时间。

🔬 方法详解

问题定义：现有前馈3D重建方法，尤其是在稀疏视角下，性能提升空间有限。引入生成先验后，推理速度会显著下降。这是因为现有方法采用一次性预测范式，模型容量受限，且缺乏推理时的迭代细化过程，难以有效利用生成先验。

核心思路：GIFSplat的核心思路是采用迭代式的前馈细化框架。通过少量的前向残差更新，逐步利用渲染证据来优化3D场景。这种迭代方式允许模型在推理时进行细化，从而克服了传统前馈方法的容量限制，并能更有效地融入生成先验。

技术框架：GIFSplat的整体框架包含以下几个主要阶段：1) 初始3D场景预测：使用一个前馈网络从稀疏视角预测初始的3D高斯溅射场景。2) 渲染：将当前3D场景渲染成新视角图像。3) 残差预测：使用另一个前馈网络，基于渲染图像预测3D高斯溅射参数的残差。4) 更新：将预测的残差加到当前的3D场景参数上，进行场景更新。5) 迭代：重复渲染、残差预测和更新步骤，进行多次迭代细化。此外，还包含一个生成先验蒸馏模块，用于将冻结的扩散模型知识迁移到高斯级别。

关键创新：GIFSplat的关键创新在于其迭代式前馈细化框架和生成先验的有效融入。与传统的一次性前馈方法不同，GIFSplat通过迭代细化，逐步提升重建质量。同时，通过将冻结的扩散模型知识蒸馏到高斯级别，实现了在保持前馈效率的同时，利用生成先验进行场景自适应。这种方法避免了梯度反向传播和视角集合的不断扩展。

关键设计：GIFSplat的关键设计包括：1) 残差预测网络结构：用于预测3D高斯溅射参数的残差。2) 迭代次数：控制迭代细化的次数，需要在效率和质量之间进行权衡。3) 生成先验蒸馏方法：将冻结的扩散模型知识迁移到高斯级别，具体方法未知。4) 损失函数：用于指导残差预测网络的训练，可能包括渲染损失和正则化项。

🖼️ 关键图片

📊 实验亮点

GIFSplat在DL3DV、RealEstate10K和DTU等数据集上取得了显著的性能提升。例如，在DL3DV数据集上，GIFSplat的PSNR指标比最先进的前馈基线提高了高达2.1dB。更重要的是，GIFSplat在保持秒级推理速度的同时，无需相机位姿信息或测试时梯度优化，显著提升了重建效率。

🎯 应用场景

GIFSplat具有广泛的应用前景，包括：快速3D重建、虚拟现实/增强现实、机器人导航、自动驾驶等。该方法能够在稀疏视角下高效地重建高质量的3D场景，无需相机位姿信息，降低了应用门槛。未来，GIFSplat有望应用于大规模场景重建、动态场景建模等领域。

📄 摘要（原文）

Feed-forward 3D reconstruction offers substantial runtime advantages over per-scene optimization, which remains slow at inference and often fragile under sparse views. However, existing feed-forward methods still have potential for further performance gains, especially for out-of-domain data, and struggle to retain second-level inference time once a generative prior is introduced. These limitations stem from the one-shot prediction paradigm in existing feed-forward pipeline: models are strictly bounded by capacity, lack inference-time refinement, and are ill-suited for continuously injecting generative priors. We introduce GIFSplat, a purely feed-forward iterative refinement framework for 3D Gaussian Splatting from sparse unposed views. A small number of forward-only residual updates progressively refine current 3D scene using rendering evidence, achieve favorable balance between efficiency and quality. Furthermore, we distill a frozen diffusion prior into Gaussian-level cues from enhanced novel renderings without gradient backpropagation or ever-increasing view-set expansion, thereby enabling per-scene adaptation with generative prior while preserving feed-forward efficiency. Across DL3DV, RealEstate10K, and DTU, GIFSplat consistently outperforms state-of-the-art feed-forward baselines, improving PSNR by up to +2.1 dB, and it maintains second-scale inference time without requiring camera poses or any test-time gradient optimization.

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理