VGGT-$Ω$

📄 arXiv: 2605.15195v1 📥 PDF

作者: Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht

分类: cs.CV

发布日期: 2026-05-14

备注: CVPR 2026 (Oral)


💡 一句话要点

VGGT-Ω:通过大规模训练和高效架构显著提升静态与动态场景重建精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 三维重建 动态场景 自监督学习 寄存器注意力 深度学习

📋 核心要点

  1. 现有前馈重建模型(如VGGT)在精度和效率上仍有提升空间,尤其是在大规模数据和动态场景下。
  2. VGGT-Ω通过架构简化、寄存器注意力机制和自监督学习,实现了更高效的训练和更高的重建精度。
  3. 实验表明,VGGT-Ω在静态和动态场景重建任务上均取得了显著提升,并在相机位姿估计上超越了现有技术。

📝 摘要(中文)

本文提出了VGGT-Ω,一种显著提升静态和动态场景重建精度、效率和能力的模型。通过架构改进提高训练效率,构建支持动态场景的高质量数据标注流程,并采用自监督学习协议,实现了前所未有的大规模训练。VGGT-Ω简化了VGGT的架构,使用带有多任务监督的单个密集预测头,并移除了高分辨率卷积层。引入寄存器来聚合场景信息,并使用寄存器注意力限制帧间信息交换,部分替代全局注意力。训练时,VGGT-Ω仅使用其前身约30%的GPU内存,从而能够使用比以往工作多15倍的监督数据,并利用大量的无标签视频数据。VGGT-Ω在多个基准测试中取得了强大的静态和动态场景重建结果,例如,在Sintel上将相机估计精度提高了77%。研究还表明,学习到的寄存器可以改进视觉-语言-动作模型,并支持与语言的对齐,表明重建可以成为空间理解的强大且可扩展的代理任务。

🔬 方法详解

问题定义:论文旨在解决三维重建领域中,现有基于前馈神经网络的重建模型(如VGGT)在处理大规模数据和动态场景时存在的效率和精度瓶颈。现有方法通常需要大量的计算资源,且在动态场景下的重建效果不佳。

核心思路:论文的核心思路是通过架构简化、引入寄存器注意力机制以及利用自监督学习,来提升模型的训练效率和重建精度。通过减少计算量和引入更有效的注意力机制,使得模型能够在大规模数据集上进行训练,并更好地处理动态场景。

技术框架:VGGT-Ω的整体架构包括以下几个主要部分:1) 简化的网络结构,使用单个密集预测头进行多任务监督;2) 寄存器模块,用于聚合场景信息并形成紧凑的表示;3) 寄存器注意力机制,用于限制帧间信息交换,替代全局注意力;4) 自监督学习模块,用于利用大量的无标签视频数据进行预训练。

关键创新:论文的关键创新在于:1) 提出了寄存器注意力机制,有效地降低了计算复杂度,并提升了模型对动态场景的建模能力;2) 设计了高效的数据标注流程,支持动态场景数据的标注;3) 结合了监督学习和自监督学习,充分利用了有标签和无标签数据。

关键设计:在网络结构方面,移除了VGGT中计算量较大的高分辨率卷积层。寄存器模块的设计旨在捕获场景的关键信息,并减少帧间信息传递的冗余。自监督学习部分,采用了合适的预训练任务,使得模型能够学习到有用的先验知识。损失函数方面,采用了多任务监督,同时优化重建精度和相机位姿估计等任务。

📊 实验亮点

VGGT-Ω在多个基准测试中取得了显著的性能提升。例如,在Sintel数据集上,相机位姿估计的精度提高了77%,超过了之前的最佳方法。此外,该模型在训练时仅需其前身VGGT约30%的GPU内存,使得能够利用更大规模的数据进行训练,从而进一步提升了重建精度。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。高质量的三维重建能够为这些应用提供更准确的环境感知,从而提升系统的性能和安全性。此外,学习到的场景表示还可以用于视觉-语言-动作模型的训练,促进跨模态理解。

📄 摘要(原文)

Recent feed-forward reconstruction models, such as VGGT, have proven competitive with traditional optimization-based reconstructors while also providing geometry-aware features useful for other tasks. Here, we show that the quality of these models scales predictably with model and data size. We do so by introducing VGGT-$Ω$, which substantially improves reconstruction accuracy, efficiency, and capabilities for both static and dynamic scenes. To enable training this model at an unprecedented scale, we introduce architectural changes that improve training efficiency, a high-quality data annotation pipeline that supports dynamic scenes, and a self-supervised learning protocol. We simplify VGGT's architecture by using a single dense prediction head with multi-task supervision and removing the expensive high-resolution convolutional layers. We also use registers to aggregate scene information into a compact representation and introduce register attention, which restricts inter-frame information exchange to these registers, in part replacing global attention. In this way, during training, VGGT-$Ω$ uses only about 30% of the GPU memory of its predecessor, allowing us to train with 15x more supervised data than prior work and to leverage vast amounts of unlabeled video data. VGGT-$Ω$ achieves strong results for reconstruction of static and dynamic scenes across multiple benchmarks, for example, improving over the previous best camera estimation accuracy on Sintel by 77%. We also show that the learned registers can improve vision-language-action models and support alignment with language, suggesting that reconstruction can be a powerful and scalable proxy task for spatial understanding. Project Page: http://vggt-omega.github.io/