Learning Efficient Fuse-and-Refine for Feed-Forward 3D Gaussian Splatting

📄 arXiv: 2503.14698v2 📥 PDF

作者: Yiming Wang, Lucy Chai, Xuan Luo, Michael Niemeyer, Manuel Lagunas, Stephen Lombardi, Siyu Tang, Tiancheng Sun

分类: cs.CV

发布日期: 2025-03-18 (更新: 2025-11-24)

备注: NeurIPS 2025, Previously titled "SplatVoxel: History-Aware Novel View Streaming without Temporal Training", Project Page: https://19reborn.github.io/SplatVoxel/


💡 一句话要点

提出Fuse-and-Refine模块,提升前馈3D高斯溅射在静态和动态场景重建中的效率和质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 场景重建 动态场景 体素表示 稀疏体素Transformer

📋 核心要点

  1. 现有前馈3D高斯溅射方法依赖像素对齐,导致冗余和灵活性不足,难以处理动态场景。
  2. 提出Fuse-and-Refine模块,通过在规范3D空间中融合和细化高斯基元,减少冗余并适应时间信息。
  3. 实验表明,该方法在静态和动态场景重建中均达到SOTA,并在H100 GPU上实现交互式速率。

📝 摘要(中文)

本文提出了一种新颖的Fuse-and-Refine模块,旨在增强现有的前馈3D高斯溅射模型,从而更有效地从稀疏视图中重建场景。现有方法通常直接将高斯基元与一个或多个输入图像中的像素对齐,导致输入视图重叠时表示冗余,并限制了基元在3D空间中的灵活性。此外,这些像素对齐方法难以推广到动态场景,因为有效利用时间信息需要解决跨帧的冗余和新出现的内容。为了解决这些局限性,我们通过在规范3D空间中合并和细化基元来增强现有前馈模型。我们的方法核心是一种高效的混合Splat-Voxel表示:从一组初始的像素对齐高斯基元开始,我们将局部特征聚合到粗到细的体素层级结构中,然后使用稀疏体素Transformer来处理这些体素特征并生成细化的高斯基元。通过融合和细化任意数量的输入到一致的基元集合中,我们的表示有效地减少了冗余,并自然地适应时间帧,从而实现动态场景的历史感知在线重建。我们的方法在静态和流式场景重建中都实现了最先进的性能,同时在单个H100 GPU上以交互速率(15 fps,延迟350ms)运行。

🔬 方法详解

问题定义:现有前馈3D高斯溅射方法主要依赖于将高斯基元与输入图像的像素对齐。这种方法在输入视图重叠时会产生冗余,并且限制了高斯基元在3D空间中的位置,使其只能位于输入光线上。此外,这种像素对齐的方法难以推广到动态场景,因为需要有效地利用时间信息来处理跨帧的冗余和新出现的内容。

核心思路:论文的核心思路是在一个规范的3D空间中融合和细化高斯基元,从而减少冗余并提高表示的灵活性。通过将来自不同视角的像素对齐的高斯基元融合到一个统一的3D表示中,可以消除冗余并允许高斯基元自由地位于3D空间中的最佳位置。此外,这种方法可以自然地适应时间帧,从而实现动态场景的历史感知在线重建。

技术框架:整体框架包含以下几个主要步骤:1) 从输入图像中提取像素对齐的高斯基元。2) 将这些高斯基元投影到3D空间中,并将其特征聚合到一个粗到细的体素层级结构中。3) 使用稀疏体素Transformer处理体素特征,生成细化的高斯基元。4) 使用细化的高斯基元进行场景重建。

关键创新:最重要的技术创新点是Fuse-and-Refine模块,它通过融合和细化高斯基元来减少冗余并提高表示的灵活性。与现有方法不同,该模块不是直接使用像素对齐的高斯基元进行场景重建,而是首先将它们融合到一个统一的3D表示中,然后再进行细化。这种方法可以有效地消除冗余并允许高斯基元自由地位于3D空间中的最佳位置。

关键设计:Fuse-and-Refine模块的核心是混合Splat-Voxel表示。首先,从像素对齐的高斯基元开始,将局部特征聚合到粗到细的体素层级结构中。然后,使用稀疏体素Transformer来处理这些体素特征,并生成细化的高斯基元。稀疏体素Transformer的设计允许有效地处理大规模的体素数据,并捕捉体素之间的长距离依赖关系。损失函数包括重建损失和正则化损失,用于优化高斯基元的位置、形状和颜色。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在静态和流式场景重建中均取得了最先进的性能。在动态场景重建任务中,该方法能够以交互速率(15 fps,延迟350ms)在单个H100 GPU上运行,同时保持高质量的重建效果。实验结果表明,该方法能够有效地减少冗余,并自然地适应时间帧,从而实现动态场景的历史感知在线重建。

🎯 应用场景

该研究成果可广泛应用于三维重建、虚拟现实、增强现实、机器人导航等领域。特别是在动态场景重建方面,该方法能够实现高效、高质量的在线重建,具有重要的实际应用价值。未来,该技术有望应用于自动驾驶、游戏开发、电影制作等领域,提升用户体验和生产效率。

📄 摘要(原文)

Recent advances in feed-forward 3D Gaussian Splatting have led to rapid improvements in efficient scene reconstruction from sparse views. However, most existing approaches construct Gaussian primitives directly aligned with the pixels in one or more of the input images. This leads to redundancies in the representation when input views overlap and constrains the position of the primitives to lie along the input rays without full flexibility in 3D space. Moreover, these pixel-aligned approaches do not naturally generalize to dynamic scenes, where effectively leveraging temporal information requires resolving both redundant and newly appearing content across frames. To address these limitations, we introduce a novel Fuse-and-Refine module that enhances existing feed-forward models by merging and refining the primitives in a canonical 3D space. At the core of our method is an efficient hybrid Splat-Voxel representation: from an initial set of pixel-aligned Gaussian primitives, we aggregate local features into a coarse-to-fine voxel hierarchy, and then use a sparse voxel transformer to process these voxel features and generate refined Gaussian primitives. By fusing and refining an arbitrary number of inputs into a consistent set of primitives, our representation effectively reduces redundancy and naturally adapts to temporal frames, enabling history-aware online reconstruction of dynamic scenes. Our approach achieves state-of-the-art performance in both static and streaming scene reconstructions while running at interactive rates (15 fps with 350ms delay) on a single H100 GPU.