TokenGS: Decoupling 3D Gaussian Prediction from Pixels with Learnable Tokens

📄 arXiv: 2604.15239v1 📥 PDF

作者: Jiawei Ren, Michal Jan Tyszkiewicz, Jiahui Huang, Zan Gojcic

分类: cs.CV

发布日期: 2026-04-16

备注: Project page: https://research.nvidia.com/labs/toronto-ai/tokengs


💡 一句话要点

TokenGS:解耦像素与3D高斯预测,利用可学习Token实现高效场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 三维重建 Transformer 可学习Token 自监督学习

📋 核心要点

  1. 现有基于Transformer的3DGS方法依赖深度回归,对姿态噪声敏感,且图元数量受限于图像分辨率。
  2. TokenGS通过直接回归3D坐标,并引入可学习的Gaussian Token,解耦图元数量与图像分辨率的依赖。
  3. 实验表明,TokenGS在静态和动态场景重建中均达到SOTA,且对姿态噪声更鲁棒,并能恢复场景属性。

📝 摘要(中文)

本文重新审视了基于Transformer的前馈3D高斯溅射(3DGS)预测方法的几个关键设计选择。我们认为,将高斯均值回归为沿相机光线的深度并非最优方案,因此提出直接回归3D均值坐标,仅使用自监督渲染损失。这种公式允许我们从标准的仅编码器设计转向具有可学习高斯Token的编码器-解码器架构,从而将预测图元的数量与输入图像分辨率和视图数量解绑。由此产生的TokenGS方法在姿态噪声和多视图不一致性方面表现出更高的鲁棒性,同时自然地支持Token空间中的高效测试时优化,而不会降低学习到的先验知识。TokenGS在静态和动态场景中都实现了最先进的前馈重建性能,生成更规则的几何体和更平衡的3DGS分布,同时无缝地恢复了涌现的场景属性,如静态-动态分解和场景流。

🔬 方法详解

问题定义:现有基于Transformer的3D高斯溅射方法通常通过回归沿相机光线的深度来预测高斯均值,这种方法对姿态噪声和多视图不一致性较为敏感。此外,预测的高斯图元数量直接依赖于输入图像的分辨率和视图数量,限制了其灵活性和效率。

核心思路:TokenGS的核心思路是解耦3D高斯预测与像素之间的直接依赖关系。通过直接回归3D空间中的高斯均值坐标,并引入可学习的Gaussian Token,模型不再需要依赖深度信息,从而提高了对姿态噪声的鲁棒性。同时,Token机制允许模型预测固定数量的高斯图元,而无需受限于输入图像的分辨率。

技术框架:TokenGS采用编码器-解码器架构。编码器负责提取图像特征,解码器则利用可学习的Gaussian Token生成3D高斯参数。整个流程包括:1) 图像特征提取;2) Token解码器利用图像特征和可学习Token预测3D高斯参数(均值、协方差、颜色等);3) 使用3D高斯溅射渲染图像;4) 通过自监督渲染损失优化模型。

关键创新:TokenGS的关键创新在于:1) 直接回归3D高斯均值坐标,避免了深度回归的局限性;2) 引入可学习的Gaussian Token,解耦了图元数量与图像分辨率的依赖关系;3) 采用编码器-解码器架构,实现了更灵活和高效的3D场景重建。

关键设计:TokenGS的关键设计包括:1) 使用Transformer作为编码器和解码器,以捕捉图像特征和Token之间的关系;2) 设计自监督渲染损失,用于优化3D高斯参数;3) 采用固定数量的Gaussian Token,以控制计算复杂度和内存消耗;4) 在测试时,可以通过优化Token空间来进一步提升重建质量,而无需重新训练整个模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TokenGS在静态和动态场景重建任务中均取得了SOTA性能。实验结果表明,TokenGS对姿态噪声具有更强的鲁棒性,并且能够生成更规则的几何体和更平衡的3DGS分布。此外,TokenGS还能够无缝地恢复场景的静态-动态分解和场景流等属性。与现有方法相比,TokenGS在重建质量和效率方面均有显著提升。

🎯 应用场景

TokenGS在三维重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。其高效的场景重建能力可以用于快速构建三维地图,为机器人提供环境感知能力。此外,TokenGS还可以用于生成高质量的虚拟场景,为用户提供沉浸式的体验。该方法对动态场景的处理能力使其在自动驾驶等领域也具有潜在的应用价值。

📄 摘要(原文)

In this work, we revisit several key design choices of modern Transformer-based approaches for feed-forward 3D Gaussian Splatting (3DGS) prediction. We argue that the common practice of regressing Gaussian means as depths along camera rays is suboptimal, and instead propose to directly regress 3D mean coordinates using only a self-supervised rendering loss. This formulation allows us to move from the standard encoder-only design to an encoder-decoder architecture with learnable Gaussian tokens, thereby unbinding the number of predicted primitives from input image resolution and number of views. Our resulting method, TokenGS, demonstrates improved robustness to pose noise and multiview inconsistencies, while naturally supporting efficient test-time optimization in token space without degrading learned priors. TokenGS achieves state-of-the-art feed-forward reconstruction performance on both static and dynamic scenes, producing more regularized geometry and more balanced 3DGS distribution, while seamlessly recovering emergent scene attributes such as static-dynamic decomposition and scene flow.