FSFSplatter: Build Surface and Novel Views with Sparse-Views within 2min

📄 arXiv: 2510.02691v2 📥 PDF

作者: Yibin Zhao, Yihan Pan, Jun Nan, Liwei Chen, Jianjun Yi

分类: cs.CV, cs.GR

发布日期: 2025-10-03 (更新: 2025-10-12)


💡 一句话要点

FSFSplatter:提出快速表面重建方法,仅用稀疏视图在2分钟内构建场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 三维重建 新视角合成 稀疏视图 Transformer网络

📋 核心要点

  1. 现有高斯溅射方法依赖于密集的、校准过的视图,而从稀疏图像重建时,由于重叠有限和过拟合,表面质量较差。
  2. FSFSplatter通过端到端密集高斯初始化、相机参数估计和几何增强的场景优化,实现了从稀疏图像的快速表面重建。
  3. 实验表明,FSFSplatter在DTU、Replica和BlendedMVS等数据集上,性能优于当前最先进的方法。

📝 摘要(中文)

高斯溅射(Gaussian Splatting)已成为领先的重建技术,以其高质量的新视角合成和精细的重建而闻名。然而,大多数现有方法需要密集的、校准过的视图。从自由稀疏图像重建通常会导致较差的表面,这是由于有限的重叠和过拟合造成的。我们介绍FSFSplatter,一种从自由稀疏图像快速重建表面的新方法。我们的方法集成了端到端密集高斯初始化、相机参数估计和几何增强的场景优化。具体来说,FSFSplatter采用大型Transformer来编码多视图图像,并通过自拆分高斯头生成密集且几何一致的高斯场景初始化。它通过基于贡献的剪枝消除局部漂浮物,并通过在快速优化期间利用深度和多视图特征监督以及可微相机参数来减轻对有限视图的过拟合。FSFSplatter在广泛使用的DTU、Replica和BlendedMVS数据集上优于当前最先进的方法。

🔬 方法详解

问题定义:论文旨在解决从自由稀疏图像中进行高质量三维表面重建的问题。现有方法在高斯溅射框架下,通常需要密集的、经过校准的图像作为输入,这限制了其在实际应用中的灵活性。当输入图像稀疏时,由于缺乏足够的几何约束,容易出现重建表面质量差、过拟合等问题。

核心思路:FSFSplatter的核心思路是通过引入一个端到端的密集高斯初始化模块,以及几何增强的场景优化策略,来克服稀疏视图带来的挑战。该方法利用Transformer网络从多视图图像中提取特征,并生成一个密集且几何一致的高斯场景初始化,从而为后续的优化提供一个良好的起点。同时,通过深度和多视图特征监督,以及可微的相机参数优化,来缓解过拟合问题。

技术框架:FSFSplatter的整体框架包含以下几个主要模块:1) 多视图图像编码:使用Transformer网络对多视图图像进行特征提取。2) 密集高斯初始化:通过一个自拆分高斯头,从多视图特征中生成一个密集的高斯场景初始化。3) 基于贡献的剪枝:消除局部漂浮的高斯粒子,减少噪声。4) 几何增强的场景优化:利用深度和多视图特征监督,以及可微的相机参数优化,对高斯场景进行优化。

关键创新:FSFSplatter的关键创新在于其端到端的密集高斯初始化模块,以及几何增强的场景优化策略。与现有方法相比,FSFSplatter能够直接从稀疏视图中生成一个高质量的初始高斯场景,并利用几何信息来约束优化过程,从而有效地缓解了过拟合问题。

关键设计:FSFSplatter的关键设计包括:1) 使用大型Transformer网络来编码多视图图像,以提取丰富的特征信息。2) 设计了一个自拆分高斯头,用于生成密集的高斯场景初始化。3) 引入了深度和多视图特征监督,以约束优化过程。4) 使用可微的相机参数优化,以提高相机参数的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FSFSplatter在DTU、Replica和BlendedMVS数据集上取得了显著的性能提升。实验结果表明,FSFSplatter能够从稀疏视图中快速构建高质量的三维模型,并且在重建精度和新视角合成质量方面均优于当前最先进的方法。该方法能够在2分钟内完成场景重建,大大提高了重建效率。

🎯 应用场景

FSFSplatter在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。该方法能够从稀疏图像中快速构建高质量的三维模型,降低了数据采集的成本和难度,使得三维重建技术能够应用于更广泛的场景,例如室内场景重建、城市建模、文物数字化等。

📄 摘要(原文)

Gaussian Splatting has become a leading reconstruction technique, known for its high-quality novel view synthesis and detailed reconstruction. However, most existing methods require dense, calibrated views. Reconstructing from free sparse images often leads to poor surface due to limited overlap and overfitting. We introduce FSFSplatter, a new approach for fast surface reconstruction from free sparse images. Our method integrates end-to-end dense Gaussian initialization, camera parameter estimation, and geometry-enhanced scene optimization. Specifically, FSFSplatter employs a large Transformer to encode multi-view images and generates a dense and geometrically consistent Gaussian scene initialization via a self-splitting Gaussian head. It eliminates local floaters through contribution-based pruning and mitigates overfitting to limited views by leveraging depth and multi-view feature supervision with differentiable camera parameters during rapid optimization. FSFSplatter outperforms current state-of-the-art methods on widely used DTU, Replica, and BlendedMVS datasets.