GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

📄 arXiv: 2604.15284v2 📥 PDF

作者: Roni Itkin, Noam Issachar, Yehonatan Keypur, Xingyu Chen, Anpei Chen, Sagie Benaim

分类: cs.CV

发布日期: 2026-04-16 (更新: 2026-04-17)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GlobalSplat:通过全局场景令牌实现高效的前馈3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 全局场景表示 前馈网络 三维重建

📋 核心要点

  1. 现有3D高斯溅射方法依赖局部启发式策略,缺乏全局场景感知,导致表示冗余和全局一致性差。
  2. GlobalSplat通过学习紧凑的全局潜在场景表示,在解码3D几何体之前编码多视图输入并解决跨视图对应关系。
  3. GlobalSplat在RealEstate10K和ACID数据集上实现了有竞争力的渲染效果,仅使用16K高斯,推理速度快于基线。

📝 摘要(中文)

3D高斯溅射的基础在于高效的图元空间分配,它直接决定了表示的紧凑性、重建速度和渲染保真度之间的协同作用。以往的解决方案,无论是基于迭代优化还是前馈推理,都在这些目标之间存在显著的权衡,这主要是由于依赖于缺乏全局场景感知的局部、启发式驱动的分配策略。具体而言,当前的前馈方法在很大程度上是像素对齐或体素对齐的。通过将像素反投影到密集的、视图对齐的图元中,它们将冗余信息烘焙到3D资产中。随着输入视图的增加,表示大小增加,全局一致性变得脆弱。为此,我们引入了GlobalSplat,这是一个建立在“先对齐,后解码”原则之上的框架。我们的方法学习一种紧凑的、全局的、潜在的场景表示,该表示编码多视图输入并在解码任何显式3D几何体之前解决跨视图对应关系。至关重要的是,这种公式能够实现紧凑、全局一致的重建,而无需依赖预训练的像素预测骨干网络或重用来自密集基线的潜在特征。利用逐渐增加解码容量的由粗到精的训练课程,GlobalSplat原生防止了表示膨胀。在RealEstate10K和ACID上,我们的模型实现了具有竞争力的新视角合成性能,同时仅使用16K高斯,远低于密集管道所需,获得了4MB的轻量级占用空间。此外,GlobalSplat实现了比基线快得多的推理速度,在单个前向传递中运行时间低于78毫秒。

🔬 方法详解

问题定义:现有3D高斯溅射方法,特别是前馈方法,依赖于局部和启发式的图元分配策略,缺乏全局场景感知。这导致了表示的冗余,随着输入视图的增加,表示大小膨胀,全局一致性难以保证。现有方法在表示的紧凑性、重建速度和渲染保真度之间存在显著的权衡。

核心思路:GlobalSplat的核心思路是“先对齐,后解码”。它首先学习一个紧凑的、全局的潜在场景表示,该表示编码多视图输入,并在解码任何显式3D几何体之前解决跨视图对应关系。通过这种方式,模型可以在全局层面上理解场景结构,从而避免局部方法引入的冗余。

技术框架:GlobalSplat的整体框架包括以下几个主要阶段:1) 多视图输入编码:将多视图图像输入编码器,提取特征。2) 全局场景表示学习:学习一个紧凑的全局潜在场景表示,该表示编码了多视图信息和跨视图对应关系。3) 3D高斯解码:从全局场景表示中解码出3D高斯参数,用于后续的渲染。4) 渲染:使用解码出的3D高斯参数进行新视角合成。

关键创新:GlobalSplat最重要的技术创新在于其全局场景表示的学习方式。与以往的局部方法不同,GlobalSplat通过学习全局潜在表示,实现了对场景结构的整体理解,从而避免了冗余表示和全局一致性问题。此外,GlobalSplat采用由粗到精的训练策略,逐步增加解码容量,有效防止了表示膨胀。

关键设计:GlobalSplat的关键设计包括:1) 全局场景表示的结构和学习方式;2) 由粗到精的训练策略,逐步增加解码容量;3) 损失函数的设计,用于优化全局场景表示和3D高斯参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GlobalSplat在RealEstate10K和ACID数据集上取得了具有竞争力的结果。与现有方法相比,GlobalSplat仅使用16K高斯,显著减少了表示大小,实现了4MB的轻量级占用空间。此外,GlobalSplat的推理速度也明显优于基线,在单个前向传递中运行时间低于78毫秒,展示了其高效性。

🎯 应用场景

GlobalSplat在三维重建、新视角合成、虚拟现实/增强现实等领域具有广泛的应用前景。其高效的渲染速度和紧凑的表示使其适用于移动设备和实时应用。该研究的潜在价值在于降低了三维重建的计算成本和存储需求,为大规模场景的三维重建和渲染提供了新的可能性。

📄 摘要(原文)

The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/