GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

📄 arXiv: 2604.15284v1 📥 PDF

作者: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim

分类: cs.CV

发布日期: 2026-04-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GlobalSplat:通过全局场景令牌实现高效的前馈3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 novel-view synthesis 全局场景表示 前馈网络 跨视图对应 由粗到精训练 三维重建

📋 核心要点

  1. 现有3D高斯溅射方法在表示紧凑性、重建速度和渲染保真度之间存在权衡,主要原因是缺乏全局场景感知。
  2. GlobalSplat的核心思想是“先对齐,后解码”,学习紧凑的全局潜在场景表示,在解码3D几何体之前解决跨视图对应关系。
  3. GlobalSplat在RealEstate10K和ACID数据集上,使用更少的高斯分布(16K),实现了有竞争力的novel-view synthesis性能,且推理速度更快。

📝 摘要(中文)

3D高斯溅射的基础在于图元的有效空间分配,它直接决定了表示的紧凑性、重建速度和渲染保真度之间的协同作用。以往的解决方案,无论是基于迭代优化还是前馈推理,都在这些目标之间存在显著的权衡,这主要是由于依赖于缺乏全局场景感知的局部、启发式驱动的分配策略。具体而言,当前的前馈方法在很大程度上是像素对齐或体素对齐的。通过将像素反投影到密集的、视图对齐的图元中,它们将冗余信息烘焙到3D资产中。随着输入视图的增加,表示大小增加,全局一致性变得脆弱。为此,我们引入了GlobalSplat,这是一个建立在“先对齐,后解码”原则之上的框架。我们的方法学习一种紧凑的、全局的、潜在的场景表示,该表示编码多视图输入并在解码任何显式3D几何体之前解决跨视图对应关系。至关重要的是,这种公式能够实现紧凑、全局一致的重建,而无需依赖预训练的像素预测骨干网络或重用来自密集基线的潜在特征。利用逐渐增加解码容量的由粗到精的训练课程,GlobalSplat原生防止了表示膨胀。在RealEstate10K和ACID上,我们的模型实现了具有竞争力的novel-view synthesis性能,同时仅使用16K高斯,远低于密集管道所需的高斯数量,获得了4MB的轻量级占用空间。此外,GlobalSplat实现了比基线快得多的推理速度,在单个前向传递中运行时间低于78毫秒。

🔬 方法详解

问题定义:现有3D高斯溅射方法,特别是前馈方法,依赖于局部启发式策略,缺乏全局场景感知,导致表示冗余、体积膨胀,以及全局一致性问题。这些方法通常是像素或体素对齐的,随着输入视图增加,表示大小线性增长,影响重建速度和质量。

核心思路:GlobalSplat的核心思路是学习一个全局的、紧凑的场景表示,该表示能够编码多视图信息,并在解码3D几何体之前解决跨视图对应关系。通过这种“先对齐,后解码”的策略,避免了在早期阶段引入冗余信息,从而实现更紧凑、更一致的3D重建。

技术框架:GlobalSplat的整体框架包括以下几个主要阶段:1) 多视图输入编码:使用神经网络将多视图图像编码成全局潜在表示。2) 跨视图对应关系学习:在潜在空间中学习跨视图的对应关系,确保全局一致性。3) 3D高斯参数解码:从全局潜在表示中解码出3D高斯分布的参数,包括位置、协方差、颜色和透明度等。4) 由粗到精的训练:采用由粗到精的训练策略,逐步增加解码容量,防止表示膨胀。

关键创新:GlobalSplat的关键创新在于其全局场景表示的学习方式,以及“先对齐,后解码”的策略。与以往依赖局部信息的像素或体素对齐方法不同,GlobalSplat通过全局潜在表示来编码整个场景的信息,从而避免了冗余和不一致性。此外,由粗到精的训练策略也有效地防止了表示膨胀。

关键设计:GlobalSplat的关键设计包括:1) 全局潜在表示的网络结构,例如Transformer或MLP。2) 跨视图对应关系的学习机制,例如注意力机制或图神经网络。3) 3D高斯参数的解码方式,例如使用MLP将潜在向量映射到高斯参数。4) 由粗到精的训练策略,例如逐步增加解码网络的层数或参数量。损失函数可能包括重建损失、正则化损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GlobalSplat在RealEstate10K和ACID数据集上取得了显著的成果。它使用仅16K个高斯分布,远少于传统密集方法,实现了具有竞争力的novel-view synthesis性能。同时,GlobalSplat的推理速度非常快,单次前向传播时间低于78毫秒,表明其具有很高的效率。

🎯 应用场景

GlobalSplat在novel-view synthesis、三维重建、虚拟现实/增强现实等领域具有广泛的应用前景。其高效的渲染速度和紧凑的表示使其非常适合在移动设备或嵌入式系统上部署。此外,GlobalSplat还可以用于场景编辑、物体插入等高级应用,为用户提供更灵活、更逼真的三维体验。

📄 摘要(原文)

The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/