SurfelSplat: Learning Efficient and Generalizable Gaussian Surfel Representations for Sparse-View Surface Reconstruction
作者: Chensheng Dai, Shengjun Zhang, Min Chen, Yueqi Duan
分类: cs.CV
发布日期: 2026-04-09
备注: Code is available at https://github.com/Simon-Dcs/Surfel_Splat
💡 一句话要点
SurfelSplat:学习高效且泛化的高斯Surfel表示,用于稀疏视角表面重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 高斯溅射 稀疏视角 奈奎斯特采样 前馈网络 表面重建 特征聚合
📋 核心要点
- 现有基于优化的3D表面重建方法依赖于密集的输入视图,且需要耗时的场景优化,限制了其效率和泛化能力。
- SurfelSplat提出了一种前馈框架,通过学习像素对齐的高斯Surfel表示,从稀疏视角图像中高效重建表面。
- 实验表明,SurfelSplat在DTU数据集上取得了与SOTA方法相当的性能,同时实现了100倍的加速,无需耗时的场景训练。
📝 摘要(中文)
3D高斯溅射(3DGS)在3D场景重建中表现出令人印象深刻的性能。除了新视角合成,它还显示出多视角表面重建的巨大潜力。现有方法采用基于优化的重建流程,以实现精确和完整的表面提取。然而,这些方法通常需要密集的输入视角,并且每个场景的优化需要消耗大量时间。为了解决这些限制,我们提出SurfelSplat,一个前馈框架,可以从稀疏视角图像生成高效且可泛化的像素对齐高斯surfel表示。我们观察到,传统的前馈结构难以恢复高斯surfel的精确几何属性,因为像素对齐图元的空间频率超过奈奎斯特采样率。因此,我们提出了一种基于奈奎斯特采样定理的跨视角特征聚合模块。具体来说,我们首先使用空间采样率引导的低通滤波器来调整高斯surfel的几何形式。然后,我们将滤波后的surfel投影到所有输入视图中,以获得跨视角特征相关性。通过专门设计的特征融合网络处理这些相关性,我们最终可以回归具有精确几何形状的高斯surfel。在DTU重建基准上的大量实验表明,我们的模型取得了与最先进方法相当的结果,并在1秒内预测高斯surfel,在没有昂贵的每个场景训练的情况下,提供了100倍的加速。
🔬 方法详解
问题定义:现有基于优化的3D表面重建方法,特别是基于3DGS的方法,虽然能实现精确的表面提取,但需要密集的输入视角和大量的per-scene优化时间。这限制了它们在稀疏视角下的应用,以及在需要快速重建的场景中的应用。现有前馈方法难以准确恢复高斯surfel的几何属性,因为像素对齐图元的空间频率超过奈奎斯特采样率。
核心思路:SurfelSplat的核心思路是设计一个前馈网络,直接从稀疏视角图像中预测像素对齐的高斯surfel表示。为了解决高频信息采样不足的问题,该方法引入了基于奈奎斯特采样定理的跨视角特征聚合模块,从而能够更准确地恢复高斯surfel的几何属性。
技术框架:SurfelSplat的整体框架是一个前馈网络,输入是稀疏视角的图像,输出是高斯surfel表示。主要包含以下几个模块:1) 特征提取模块:从输入图像中提取特征。2) 空间采样率引导的低通滤波器:调整高斯surfel的几何形式。3) 跨视角特征聚合模块:将滤波后的surfel投影到所有输入视图中,计算跨视角特征相关性。4) 特征融合网络:处理跨视角特征相关性,回归高斯surfel的几何属性。
关键创新:SurfelSplat的关键创新在于提出了基于奈奎斯特采样定理的跨视角特征聚合模块。该模块通过空间采样率引导的低通滤波器,有效地解决了高频信息采样不足的问题,从而能够更准确地恢复高斯surfel的几何属性。与现有方法相比,SurfelSplat无需per-scene优化,能够实现更快的重建速度和更好的泛化能力。
关键设计:在跨视角特征聚合模块中,空间采样率引导的低通滤波器的具体实现方式未知,论文中可能没有详细描述。特征融合网络的具体结构也未知,但应该是一个能够处理跨视角特征相关性的网络结构。损失函数的设计也未知,但应该包含几何损失和外观损失,以保证重建的准确性和真实感。
🖼️ 关键图片
📊 实验亮点
SurfelSplat在DTU数据集上取得了与SOTA方法相当的性能,同时实现了100倍的加速。该方法能够在1秒内预测高斯surfel,无需耗时的per-scene训练。这些结果表明,SurfelSplat是一种高效且可泛化的3D表面重建方法。
🎯 应用场景
SurfelSplat具有广泛的应用前景,包括快速3D扫描、机器人导航、虚拟现实/增强现实、以及自动驾驶等领域。其高效的重建速度和良好的泛化能力使其能够应用于需要快速、准确地重建3D场景的各种应用中。未来,该方法可以进一步扩展到动态场景重建和大规模场景重建。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has demonstrated impressive performance in 3D scene reconstruction. Beyond novel view synthesis, it shows great potential for multi-view surface reconstruction. Existing methods employ optimization-based reconstruction pipelines that achieve precise and complete surface extractions. However, these approaches typically require dense input views and high time consumption for per-scene optimization. To address these limitations, we propose SurfelSplat, a feed-forward framework that generates efficient and generalizable pixel-aligned Gaussian surfel representations from sparse-view images. We observe that conventional feed-forward structures struggle to recover accurate geometric attributes of Gaussian surfels because the spatial frequency of pixel-aligned primitives exceeds Nyquist sampling rates. Therefore, we propose a cross-view feature aggregation module based on the Nyquist sampling theorem. Specifically, we first adapt the geometric forms of Gaussian surfels with spatial sampling rate-guided low-pass filters. We then project the filtered surfels across all input views to obtain cross-view feature correlations. By processing these correlations through a specially designed feature fusion network, we can finally regress Gaussian surfels with precise geometry. Extensive experiments on DTU reconstruction benchmarks demonstrate that our model achieves comparable results with state-of-the-art methods, and predict Gaussian surfels within 1 second, offering a 100x speedup without costly per-scene training.