$\text{VG}^2$GT: Voxel-Gaussian Splatting Visual Geometry Grounded Transformer

📄 arXiv: 2606.01573v1 📥 PDF

作者: Yibin Zhao, Yihan Pan, Jun Nan, Wenli Yang, Liwei Chen, Jianjun Yi

分类: cs.CV

发布日期: 2026-06-01


💡 一句话要点

提出VG²GT,利用体素高斯溅射和视觉几何Transformer实现高质量三维重建与新视角合成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高斯溅射 三维重建 新视角合成 视觉基础模型 体素表示

📋 核心要点

  1. 现有高斯溅射方法依赖精确相机参数和逐场景优化,或产生伪影和非均匀基元。
  2. VG²GT利用预训练视觉基础模型和体素模块增强几何理解,直接回归高斯基元参数。
  3. 通过深度图监督和随机体积渲染,VG²GT在多个数据集上超越现有SOTA方法。

📝 摘要(中文)

本文提出了一种名为VG²GT的体素高斯溅射视觉几何Transformer方法,用于三维重建和新视角合成。现有方法通常需要精确的相机参数和逐场景优化,而基于像素对齐的高斯基元的feed-forward方法容易产生伪影和非均匀基元。VG²GT利用预训练的视觉基础模型(VFM),结合多尺度可微体素模块来增强几何理解,并直接从体素特征中分割和回归高斯基元参数。在训练过程中,通过随机实体体积渲染来监督深度图,从而实现几何精确的高斯场景重建,同时保持视觉基础模型完全冻结。这种设计使得VG²GT能够无缝地插入到任何基于patch特征的VFM中,并显著降低所需的训练成本。在广泛使用的DTU、Replica、TAT和ScanNet数据集上,VG²GT优于当前最先进的方法。

🔬 方法详解

问题定义:现有基于高斯溅射的三维重建和新视角合成方法存在一些问题。一些方法需要精确的相机参数,并且需要针对每个场景进行单独优化,计算成本高昂。而另一些feed-forward方法,虽然速度快,但由于使用像素对齐的高斯基元,容易产生伪影,并且高斯基元分布不均匀,影响重建质量。

核心思路:VG²GT的核心思路是利用预训练的视觉基础模型(VFM)提取图像特征,并结合体素表示来增强几何理解。通过可微的体素模块,将图像特征转换为三维体素特征,然后直接从体素特征中预测高斯基元的参数。这种方法避免了对相机参数的过度依赖,并且可以实现端到端的训练。

技术框架:VG²GT的整体框架包括以下几个主要模块:1) 预训练视觉基础模型(VFM):用于提取输入图像的特征。2) 多尺度可微体素模块:将图像特征转换为三维体素表示,增强几何理解。3) 高斯基元参数回归模块:从体素特征中预测高斯基元的参数,包括位置、尺度、旋转和颜色等。4) 随机实体体积渲染模块:用于将高斯基元渲染成图像,并计算损失函数。

关键创新:VG²GT的关键创新在于以下几个方面:1) 结合预训练的视觉基础模型和体素表示,增强了几何理解能力。2) 提出了一种可微的体素模块,可以有效地将图像特征转换为三维体素表示。3) 直接从体素特征中回归高斯基元参数,避免了对相机参数的过度依赖。4) 使用随机实体体积渲染进行深度监督,提高了重建的几何精度。

关键设计:VG²GT的关键设计包括:1) 使用多尺度体素模块,捕捉不同尺度的几何信息。2) 使用随机实体体积渲染,对深度图进行监督,提高几何精度。3) 视觉基础模型采用冻结策略,减少训练成本,并提高泛化能力。4) 损失函数包括深度损失和渲染损失,共同优化高斯基元的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VG²GT在DTU、Replica、TAT和ScanNet等多个数据集上取得了显著的性能提升,超越了当前最先进的方法。例如,在DTU数据集上,VG²GT在PSNR、SSIM和LPIPS等指标上均取得了显著提升,表明其重建质量更高,视觉效果更好。此外,VG²GT的训练成本也显著降低,使其更易于部署和应用。

🎯 应用场景

VG²GT具有广泛的应用前景,包括:1) 自动驾驶:用于构建高精度的三维地图,提高自动驾驶系统的感知能力。2) 虚拟现实/增强现实:用于创建逼真的虚拟场景,提供沉浸式的用户体验。3) 机器人导航:用于帮助机器人在未知环境中进行导航和定位。4) 三维重建:用于从图像或视频中重建三维模型,应用于文物保护、城市建模等领域。

📄 摘要(原文)

Gaussian splatting has shown strong potential for 3D reconstruction and novel view synthesis. However, most existing methods require accurate camera parameters and per-scene optimization, while feed-forward methods with pixel-aligned Gaussian primitives often suffer from artifacts and non-uniform primitives. In this paper, we propose $\text{VG}^2$GT, a Voxel-Gaussian Splatting Visual Geometry-Grounded Transformer. $\text{VG}^2$GT leverages a frozen pretrained visual foundation model (VFM), incorporates a multi-scale differentiable voxel module to enhance geometric understanding, and directly splits and regresses Gaussian primitive parameters from voxel features. During training, depth maps are supervised through stochastic solid volume rendering, enabling geometrically accurate Gaussian scene reconstruction while keeping the visual foundation model fully frozen. This design enables $\text{VG}^2$GT to be seamlessly plugged into any patch-feature-based VFM, while substantially reducing the required training cost. $\text{VG}^2$GT outperforms current state-of-the-art methods on widely used DTU, Replica, TAT, and ScanNet datasets.