VGGT: Visual Geometry Grounded Transformer
作者: Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
分类: cs.CV
发布日期: 2025-03-14
备注: CVPR 2025, Project Page: https://vgg-t.github.io/
🔗 代码/项目: GITHUB
💡 一句话要点
VGGT:视觉几何驱动的Transformer,一步到位地从多视角图像中推断场景的3D属性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 多视角几何 Transformer网络 相机姿态估计 深度估计
📋 核心要点
- 传统3D视觉模型通常针对特定任务设计,缺乏通用性和效率,需要复杂的后处理。
- VGGT通过一个前馈网络直接从多视角图像中推断包括相机参数、深度图和3D点轨迹在内的所有关键3D属性。
- VGGT在相机参数估计、多视角深度估计等多个3D任务中取得了领先成果,且可用作特征骨干提升下游任务性能。
📝 摘要(中文)
本文提出了VGGT,一种前馈神经网络,可以直接从一个、几个或数百个视角的图像中推断场景的所有关键3D属性,包括相机参数、点云图、深度图和3D点轨迹。这种方法是3D计算机视觉领域的一大进步,因为以往的模型通常被限制于单个任务并为其定制。VGGT简单高效,重建图像耗时不到一秒,并且性能优于需要视觉几何优化技术进行后处理的替代方案。该网络在多个3D任务中实现了最先进的结果,包括相机参数估计、多视角深度估计、密集点云重建和3D点跟踪。我们还表明,使用预训练的VGGT作为特征骨干网络可以显著增强下游任务,例如非刚性点跟踪和前馈新视角合成。
🔬 方法详解
问题定义:现有的3D计算机视觉方法通常针对特定任务进行优化,例如相机姿态估计、深度估计或点云重建,缺乏通用性。此外,许多方法依赖于复杂的后处理步骤,例如基于视觉几何的优化,这增加了计算成本和复杂性。因此,需要一种能够从多视角图像中直接、高效地推断场景所有关键3D属性的通用模型。
核心思路:VGGT的核心思路是利用Transformer架构的强大表示能力,直接从多视角图像中学习场景的3D结构。通过将视觉信息和几何信息融合到Transformer中,VGGT能够同时预测相机参数、深度图、点云和3D点轨迹,从而避免了传统方法中多个独立模块和后处理步骤的需求。
技术框架:VGGT的整体架构是一个端到端的前馈神经网络。它接收一个或多个视角的图像作为输入,并输出相机参数、深度图、点云和3D点轨迹。该网络主要由以下几个模块组成:1) 特征提取模块:使用卷积神经网络(CNN)提取每个视角的图像特征。2) Transformer模块:将提取的特征输入Transformer,学习不同视角之间的关系,并融合视觉和几何信息。3) 3D属性预测模块:使用多个预测头从Transformer的输出中预测相机参数、深度图、点云和3D点轨迹。
关键创新:VGGT的关键创新在于将视觉几何信息融入到Transformer架构中,从而实现对场景3D属性的直接推断。与现有方法相比,VGGT无需复杂的后处理步骤,并且能够同时预测多个3D属性,从而提高了效率和通用性。此外,VGGT还可以作为特征骨干网络,用于增强下游任务的性能。
关键设计:VGGT的关键设计包括:1) 使用预训练的CNN作为特征提取器,以提高特征的鲁棒性。2) 设计特定的Transformer架构,以有效地融合视觉和几何信息。3) 使用多个预测头,分别预测不同的3D属性。4) 使用合适的损失函数,例如深度损失、点云损失和轨迹损失,以优化网络的性能。具体参数设置和网络结构细节可在论文原文和开源代码中找到。
🖼️ 关键图片
📊 实验亮点
VGGT在多个3D任务中取得了最先进的结果,包括相机参数估计、多视角深度估计、密集点云重建和3D点跟踪。例如,在相机参数估计任务中,VGGT的性能优于现有的最先进方法。此外,使用预训练的VGGT作为特征骨干网络可以显著增强下游任务,例如非刚性点跟踪和前馈新视角合成。
🎯 应用场景
VGGT在机器人导航、自动驾驶、增强现实和虚拟现实等领域具有广泛的应用前景。它可以用于构建场景的3D模型,从而帮助机器人进行环境感知和导航。在自动驾驶中,VGGT可以用于估计车辆的姿态和周围环境的深度信息,从而提高驾驶安全性。在AR/VR中,VGGT可以用于创建逼真的3D场景,从而增强用户体验。
📄 摘要(原文)
We present VGGT, a feed-forward neural network that directly infers all key 3D attributes of a scene, including camera parameters, point maps, depth maps, and 3D point tracks, from one, a few, or hundreds of its views. This approach is a step forward in 3D computer vision, where models have typically been constrained to and specialized for single tasks. It is also simple and efficient, reconstructing images in under one second, and still outperforming alternatives that require post-processing with visual geometry optimization techniques. The network achieves state-of-the-art results in multiple 3D tasks, including camera parameter estimation, multi-view depth estimation, dense point cloud reconstruction, and 3D point tracking. We also show that using pretrained VGGT as a feature backbone significantly enhances downstream tasks, such as non-rigid point tracking and feed-forward novel view synthesis. Code and models are publicly available at https://github.com/facebookresearch/vggt.