VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model

📄 arXiv: 2603.12655v1 📥 PDF

作者: Xiangyu Sun, Shijie Wang, Fengyi Zhang, Lin Liu, Caiyan Jia, Ziying Song, Zi Huang, Yadan Luo

分类: cs.CV

发布日期: 2026-03-13


💡 一句话要点

VGGT-World:提出一种基于几何特征自回归预测的几何世界模型,提升深度预测效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 几何预测 自回归模型 深度预测 几何基础模型 时间流Transformer 自动驾驶

📋 核心要点

  1. 现有世界模型将大部分算力用于预测光度细节,导致几何一致性较差,这是核心问题。
  2. VGGT-World通过预测冻结几何基础模型(GFM)的特征演变,避免了视频生成,从而专注于几何预测。
  3. 实验表明,VGGT-World在深度预测方面优于现有方法,同时显著提升了运行速度和参数效率。

📝 摘要(中文)

本文提出VGGT-World,一种几何世界模型,它避免了视频生成,转而预测冻结的几何基础模型(GFM)特征的时间演变。具体来说,我们将冻结的VGGT的潜在tokens重新用作世界状态,并训练一个轻量级的时间流Transformer来自回归地预测它们的未来轨迹。在高维(d=1024)特征空间中,面临两个技术挑战:(i)标准的速度预测流匹配崩溃,(ii)自回归rollout遭受复合曝光偏差。我们通过一个干净目标(z-prediction)参数化来解决第一个问题,该参数化产生明显更高的信噪比;通过一个两阶段的潜在流强制课程来解决第二个问题,该课程逐步地将模型建立在它自己部分去噪的rollout上。在KITTI、Cityscapes和TartanAir上的实验表明,VGGT-World在深度预测方面显著优于最强的基线,同时运行速度快3.6-5倍,且只有0.43B可训练参数,证明了冻结的GFM特征是3D世界建模的有效和高效的预测状态。

🔬 方法详解

问题定义:现有世界模型在预测未来场景时,过度关注光度细节,导致几何结构不一致。这些模型通常需要大量的计算资源来进行视频帧生成,效率较低。因此,如何高效且准确地预测场景的几何演变是亟待解决的问题。

核心思路:VGGT-World的核心思路是将场景的几何信息表示为冻结的几何基础模型(GFM)的特征,并使用自回归模型预测这些特征的未来演变。通过直接预测几何特征,避免了复杂的视频生成过程,从而提高了效率和几何一致性。

技术框架:VGGT-World的整体框架包括以下几个主要模块:1) 使用冻结的VGGT提取几何特征;2) 将这些特征作为世界状态;3) 使用时间流Transformer自回归地预测未来特征;4) 使用两阶段的潜在流强制课程来解决自回归rollout中的复合曝光偏差。

关键创新:VGGT-World的关键创新在于:1) 使用冻结的GFM特征作为世界状态,避免了视频生成;2) 提出了干净目标(z-prediction)参数化,提高了信噪比,解决了速度预测流匹配崩溃的问题;3) 提出了两阶段的潜在流强制课程,缓解了自回归rollout中的复合曝光偏差。

关键设计:在干净目标(z-prediction)参数化中,模型直接预测目标特征,而不是预测速度或偏移量。两阶段的潜在流强制课程包括:首先,使用真实数据训练模型;然后,逐步地将模型暴露于其自身生成的、部分去噪的rollout中,从而提高模型的鲁棒性。时间流Transformer的具体结构和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGGT-World在KITTI、Cityscapes和TartanAir数据集上进行了实验,结果表明,该方法在深度预测方面显著优于现有基线方法,同时运行速度提高了3.6-5倍,且仅使用了0.43B的可训练参数。这些结果表明,VGGT-World是一种高效且有效的3D世界建模方法。

🎯 应用场景

VGGT-World可应用于自动驾驶、机器人导航、增强现实等领域。通过准确预测场景的几何演变,可以帮助自动驾驶系统更好地理解周围环境,从而做出更安全的决策。在机器人导航中,可以提高机器人对环境变化的适应能力。在增强现实中,可以实现更逼真的虚拟场景与真实世界的融合。

📄 摘要(原文)

World models that forecast scene evolution by generating future video frames devote the bulk of their capacity to photometric details, yet the resulting predictions often remain geometrically inconsistent. We present VGGT-World, a geometry world model that side-steps video generation entirely and instead forecasts the temporal evolution of frozen geometry-foundation-model (GFM) features. Concretely, we repurpose the latent tokens of a frozen VGGT as the world state and train a lightweight temporal flow transformer to autoregressively predict their future trajectory. Two technical challenges arise in this high-dimensional (d=1024) feature space: (i) standard velocity-prediction flow matching collapses, and (ii) autoregressive rollout suffers from compounding exposure bias. We address the first with a clean-target (z-prediction) parameterization that yields a substantially higher signal-to-noise ratio, and the second with a two-stage latent flow-forcing curriculum that progressively conditions the model on its own partially denoised rollouts. Experiments on KITTI, Cityscapes, and TartanAir demonstrate that VGGT-World significantly outperforms the strongest baselines in depth forecasting while running 3.6-5 times faster with only 0.43B trainable parameters, establishing frozen GFM features as an effective and efficient predictive state for 3D world modeling.