SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes
作者: Jungho Lee, Minhyeok Lee, Sunghun Yang, Minseok Kang, Sangyoun Lee
分类: cs.CV, cs.AI
发布日期: 2025-11-23
备注: Project Page: https://Jho-Yonsei.github.io/SwiftVGGT/
💡 一句话要点
SwiftVGGT:一种可扩展的视觉几何约束Transformer,用于大规模场景三维重建。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 三维重建 大规模场景 视觉几何 Transformer 回环检测
📋 核心要点
- 现有大规模三维重建方法在精度和效率之间存在权衡,难以兼顾高质量和快速推理。
- SwiftVGGT通过无需训练的回环检测和高效的点采样对齐,在保证全局一致性的同时显著提升推理速度。
- 实验表明,SwiftVGGT在多个数据集上实现了最先进的重建质量,且推理时间仅为现有VGGT方法的33%。
📝 摘要(中文)
大规模场景的三维重建是三维感知中的一项基本任务,但精度和计算效率之间的固有权衡仍然是一个重大挑战。现有方法要么优先考虑速度而产生低质量的结果,要么以缓慢的推理时间为代价来实现高质量的重建。本文提出SwiftVGGT,一种无需训练的方法,可显著减少推理时间,同时保持高质量的密集三维重建。为了保持大规模场景中的全局一致性,SwiftVGGT执行回环检测,而无需依赖外部视觉定位识别(VPR)模型,从而消除了冗余计算,并实现了公里级环境下的精确重建。此外,我们提出了一种简单而有效的点采样方法,使用基于单个Sim(3)的奇异值分解(SVD)步骤来对齐相邻块,从而消除了先前工作中常用的迭代重加权最小二乘(IRLS)优化,从而显著提高了速度。我们在多个数据集上评估了SwiftVGGT,结果表明,它实现了最先进的重建质量,同时仅需最近基于VGGT的大规模重建方法33%的推理时间。
🔬 方法详解
问题定义:大规模场景的三维重建需要在精度和效率之间进行权衡。现有方法要么速度快但质量差,要么质量高但速度慢。此外,为了保证全局一致性,通常需要依赖外部的视觉定位识别(VPR)模型进行回环检测,这增加了计算负担。
核心思路:SwiftVGGT的核心思路是在保证重建质量的前提下,通过优化回环检测和点云对齐两个关键步骤来显著提升推理速度。它避免了对外部VPR模型的依赖,并采用了一种高效的点采样对齐方法。
技术框架:SwiftVGGT的整体框架包括以下几个主要阶段:1) 特征提取与匹配;2) 基于视觉几何的回环检测,无需外部VPR模型;3) 基于Sim(3)-SVD的点云块对齐;4) 密集三维重建。
关键创新:SwiftVGGT的关键创新在于:1) 无需外部VPR模型的回环检测,降低了计算复杂度;2) 基于单个Sim(3)-SVD步骤的点云块对齐,避免了耗时的迭代优化,显著提升了速度。
关键设计:SwiftVGGT的关键设计包括:1) 一种简单而有效的点采样方法,用于选择用于对齐的代表性点;2) 使用单个Sim(3)-SVD步骤进行点云块对齐,避免了迭代重加权最小二乘(IRLS)优化;3) 损失函数的设计可能包含几何一致性约束,以保证重建的准确性(具体细节未知)。
📊 实验亮点
SwiftVGGT在多个数据集上进行了评估,实验结果表明,该方法在保持最先进重建质量的同时,推理时间仅为现有基于VGGT的大规模重建方法的33%。这表明SwiftVGGT在效率方面取得了显著的提升,使其更适用于实际应用。
🎯 应用场景
SwiftVGGT在大规模场景的三维重建方面具有广泛的应用前景,例如自动驾驶、机器人导航、城市建模、虚拟现实和增强现实等领域。该方法能够快速且准确地重建大规模环境,为这些应用提供可靠的三维地图信息,具有重要的实际价值和潜在的未来影响。
📄 摘要(原文)
3D reconstruction in large-scale scenes is a fundamental task in 3D perception, but the inherent trade-off between accuracy and computational efficiency remains a significant challenge. Existing methods either prioritize speed and produce low-quality results, or achieve high-quality reconstruction at the cost of slow inference times. In this paper, we propose SwiftVGGT, a training-free method that significantly reduce inference time while preserving high-quality dense 3D reconstruction. To maintain global consistency in large-scale scenes, SwiftVGGT performs loop closure without relying on the external Visual Place Recognition (VPR) model. This removes redundant computation and enables accurate reconstruction over kilometer-scale environments. Furthermore, we propose a simple yet effective point sampling method to align neighboring chunks using a single Sim(3)-based Singular Value Decomposition (SVD) step. This eliminates the need for the Iteratively Reweighted Least Squares (IRLS) optimization commonly used in prior work, leading to substantial speed-ups. We evaluate SwiftVGGT on multiple datasets and show that it achieves state-of-the-art reconstruction quality while requiring only 33% of the inference time of recent VGGT-based large-scale reconstruction approaches.