VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

📄 arXiv: 2605.11424v1 📥 PDF

作者: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han

分类: cs.CV

发布日期: 2026-05-12

备注: Accepted by SIGGRAPH Conference 2026. Project Page: https://tangjm24.github.io/VidSplat


💡 一句话要点

VidSplat:利用几何引导的视频扩散先验实现高斯溅射重建,提升稀疏视图下的三维重建效果。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 三维重建 视频扩散模型 稀疏视图 生成式模型

📋 核心要点

  1. 现有方法在稀疏视图下三维重建效果不佳,难以推断未见或遮挡区域。
  2. VidSplat利用视频扩散先验迭代合成新视图,补偿缺失的输入覆盖,实现完整场景重建。
  3. 实验表明,VidSplat在稀疏视图重建上表现出色,即使是单张图像也能实现鲁棒重建。

📝 摘要(中文)

高斯溅射在多视图表面重建方面取得了显著进展,但当只有少量视图可用时,性能会显著下降。虽然最近的一些工作通过增强多视图一致性来生成合理的表面,从而缓解了这个问题,但它们难以推断输入覆盖范围之外的未见、遮挡或弱约束区域。为了解决这个限制,我们提出了VidSplat,一个无需训练的生成式重建框架,它利用强大的视频扩散先验来迭代合成新的视图,以补偿缺失的输入覆盖,从而从稀疏输入中恢复完整的三维场景。具体来说,我们解决了两个关键挑战,以实现生成和重建的有效集成。首先,对于三维一致的生成,我们详细阐述了一种无需训练的、阶段性的去噪策略,该策略使用渲染的RGB和mask图像自适应地引导去噪方向朝向底层几何。其次,为了增强重建,我们开发了一种迭代机制,该机制采样相机轨迹,探索未观察到的区域,合成新的视图,并通过置信度加权细化来补充训练。VidSplat对稀疏输入甚至单张图像都表现出强大的鲁棒性。在广泛使用的基准测试上的大量实验证明了我们在稀疏视图场景重建方面的卓越性能。

🔬 方法详解

问题定义:论文旨在解决在稀疏视图条件下,高斯溅射三维重建效果不佳的问题。现有方法难以推断未观察到、被遮挡或弱约束的区域,导致重建结果不完整或失真。这些方法依赖于多视图一致性,但在视图数量不足时表现欠佳。

核心思路:VidSplat的核心思路是利用视频扩散模型强大的生成能力,从已有的稀疏视图中生成新的、补充性的视图,从而弥补输入信息的不足。通过迭代地生成新视图并将其融入到高斯溅射的优化过程中,可以逐步完善三维场景的重建结果。这种方法的核心在于将生成模型和重建模型有效地结合起来。

技术框架:VidSplat的整体框架包含以下几个主要阶段:1) 初始化高斯溅射模型;2) 迭代地进行新视图生成和模型优化。在新视图生成阶段,首先采样相机轨迹,探索未观察到的区域。然后,利用几何引导的视频扩散模型合成新的视图。在模型优化阶段,将生成的新视图与原始视图一起用于优化高斯溅射模型,并通过置信度加权的方式对新视图进行细化。

关键创新:VidSplat的关键创新在于提出了一种几何引导的视频扩散先验方法,用于生成与现有视图和底层几何一致的新视图。此外,该方法还设计了一种迭代机制,通过采样相机轨迹和置信度加权细化,有效地探索未观察到的区域并提升重建质量。与现有方法相比,VidSplat无需训练,可以直接利用预训练的视频扩散模型。

关键设计:VidSplat采用了一种阶段性的去噪策略,自适应地引导去噪方向朝向底层几何。具体来说,它使用渲染的RGB和mask图像来指导去噪过程,确保生成的新视图与已知的几何信息保持一致。此外,置信度加权细化机制根据新视图的质量和与原始视图的一致性,对新视图的贡献进行加权,从而避免引入噪声或不准确的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VidSplat在稀疏视图场景重建任务上表现出卓越的性能,即使在单张图像作为输入的情况下也能实现鲁棒的重建效果。实验结果表明,VidSplat在多个公开数据集上优于现有的方法,尤其是在视图数量非常有限的情况下,性能提升更为显著。具体的性能数据和对比基线信息需要在论文中查找。

🎯 应用场景

VidSplat在三维场景重建领域具有广泛的应用前景,例如:机器人导航、虚拟现实、增强现实、自动驾驶、文物数字化等。该方法能够从有限的图像或视频数据中重建出高质量的三维模型,降低了数据采集的成本和难度,为相关应用提供了更便捷的解决方案。

📄 摘要(原文)

Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.