SparSplat: Fast Multi-View Reconstruction with Generalizable 2D Gaussian Splatting

📄 arXiv: 2505.02175v1 📥 PDF

作者: Shubhendu Jena, Shishir Reddy Vutukur, Adnane Boukhayma

分类: cs.CV

发布日期: 2025-05-04

备注: Project page : https://shubhendu-jena.github.io/SparSplat/


💡 一句话要点

SparSplat:基于可泛化2D高斯溅射的快速多视角重建,实现稀疏视角下的高质量三维重建与新视角合成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角重建 新视角合成 高斯溅射 稀疏视角 可泛化学习 深度学习 三维重建

📋 核心要点

  1. 现有方法在稀疏视角下进行三维重建和新视角合成时,面临几何信息不足和泛化能力差的挑战。
  2. 提出一种基于MVS的学习框架,直接回归2D高斯溅射参数,实现快速且可泛化的三维重建和新视角合成。
  3. 实验表明,该方法在多个数据集上取得了state-of-the-art的结果,并在速度上具有显著优势。

📝 摘要(中文)

本文提出了一种基于可泛化2D高斯溅射(2DGS)的快速多视角重建方法,旨在解决稀疏视角下三维重建和新视角合成(NVS)的挑战。该方法利用多视角立体(MVS)学习框架,以feed-forward的方式回归2DGS表面元素参数,从而实现三维形状重建和NVS。该方法能够有效利用预先存在的多视角深度视觉特征。实验结果表明,该模型在DTU稀疏三维重建基准测试中,在Chamfer距离上达到了最先进的性能,并在新视角合成方面也取得了领先成果。此外,该模型在BlendedMVS和Tanks and Temples数据集上表现出强大的泛化能力。值得注意的是,该模型在feed-forward稀疏视角重建方面优于基于隐式表示体渲染的现有技术,同时推理速度提高了近两个数量级。

🔬 方法详解

问题定义:论文旨在解决稀疏视角下,传统多视角立体(MVS)方法重建质量差、泛化能力弱的问题。现有基于隐式表示的方法虽然在一定程度上解决了这个问题,但推理速度较慢,难以满足实时应用的需求。

核心思路:论文的核心思路是利用2D高斯溅射(2DGS)作为场景表示,并设计一个可泛化的学习框架,直接从稀疏的输入图像中回归2DGS的参数。2DGS具有高效的渲染能力,同时能够提供精确的几何信息。通过学习一个能够泛化到不同场景的回归模型,可以实现快速且高质量的三维重建和新视角合成。

技术框架:整体框架是一个基于MVS的学习pipeline。首先,利用预训练的深度视觉特征提取器从输入图像中提取特征。然后,一个回归网络将这些特征映射到2DGS的参数,包括位置、协方差矩阵、颜色等。最后,使用2DGS渲染器将这些参数渲染成新的视角图像。整个过程是feed-forward的,因此速度非常快。

关键创新:最重要的创新点在于将可泛化的学习框架与2DGS相结合,直接回归2DGS参数。与传统的基于体渲染的隐式表示方法相比,该方法避免了复杂的优化过程,大大提高了推理速度。此外,该方法能够有效利用预训练的深度视觉特征,从而提高重建质量和泛化能力。

关键设计:论文使用了预训练的MVS特征提取器,例如CasMVSNet,来提取多视角图像的深度特征。回归网络采用MLP结构,将深度特征映射到2DGS参数。损失函数包括光度损失和深度损失,用于约束重建的质量。此外,论文还使用了L1正则化来约束2DGS参数,防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在DTU数据集上实现了state-of-the-art的稀疏视角三维重建结果,在Chamfer距离指标上优于现有方法。同时,该模型在新视角合成方面也取得了领先成果。更重要的是,该模型在推理速度上比基于体渲染的隐式表示方法快近两个数量级,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在自动驾驶中,可以利用该方法从车载摄像头获取的稀疏图像中快速重建周围环境的三维模型,从而提高车辆的感知能力。在VR/AR中,可以利用该方法从少量图像中快速生成高质量的虚拟场景,从而提高用户体验。

📄 摘要(原文)

Recovering 3D information from scenes via multi-view stereo reconstruction (MVS) and novel view synthesis (NVS) is inherently challenging, particularly in scenarios involving sparse-view setups. The advent of 3D Gaussian Splatting (3DGS) enabled real-time, photorealistic NVS. Following this, 2D Gaussian Splatting (2DGS) leveraged perspective accurate 2D Gaussian primitive rasterization to achieve accurate geometry representation during rendering, improving 3D scene reconstruction while maintaining real-time performance. Recent approaches have tackled the problem of sparse real-time NVS using 3DGS within a generalizable, MVS-based learning framework to regress 3D Gaussian parameters. Our work extends this line of research by addressing the challenge of generalizable sparse 3D reconstruction and NVS jointly, and manages to perform successfully at both tasks. We propose an MVS-based learning pipeline that regresses 2DGS surface element parameters in a feed-forward fashion to perform 3D shape reconstruction and NVS from sparse-view images. We further show that our generalizable pipeline can benefit from preexisting foundational multi-view deep visual features. The resulting model attains the state-of-the-art results on the DTU sparse 3D reconstruction benchmark in terms of Chamfer distance to ground-truth, as-well as state-of-the-art NVS. It also demonstrates strong generalization on the BlendedMVS and Tanks and Temples datasets. We note that our model outperforms the prior state-of-the-art in feed-forward sparse view reconstruction based on volume rendering of implicit representations, while offering an almost 2 orders of magnitude higher inference speed.