SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes

作者: Jungho Lee, Minhyeok Lee, Sunghun Yang, Minseok Kang, Sangyoun Lee

分类: cs.CV, cs.AI

发布日期: 2025-11-23

备注: Project Page: https://Jho-Yonsei.github.io/SwiftVGGT/

💡 一句话要点

SwiftVGGT：一种可扩展的视觉几何约束Transformer，用于大规模场景三维重建。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 三维重建 大规模场景 视觉几何 Transformer 回环检测

📋 核心要点

现有大规模三维重建方法在精度和效率之间存在权衡，难以兼顾高质量和快速推理。
SwiftVGGT通过无需训练的回环检测和高效的点采样对齐，在保证全局一致性的同时显著提升推理速度。
实验表明，SwiftVGGT在多个数据集上实现了最先进的重建质量，且推理时间仅为现有VGGT方法的33%。

📝 摘要（中文）

大规模场景的三维重建是三维感知中的一项基本任务，但精度和计算效率之间的固有权衡仍然是一个重大挑战。现有方法要么优先考虑速度而产生低质量的结果，要么以缓慢的推理时间为代价来实现高质量的重建。本文提出SwiftVGGT，一种无需训练的方法，可显著减少推理时间，同时保持高质量的密集三维重建。为了保持大规模场景中的全局一致性，SwiftVGGT执行回环检测，而无需依赖外部视觉定位识别（VPR）模型，从而消除了冗余计算，并实现了公里级环境下的精确重建。此外，我们提出了一种简单而有效的点采样方法，使用基于单个Sim(3)的奇异值分解（SVD）步骤来对齐相邻块，从而消除了先前工作中常用的迭代重加权最小二乘（IRLS）优化，从而显著提高了速度。我们在多个数据集上评估了SwiftVGGT，结果表明，它实现了最先进的重建质量，同时仅需最近基于VGGT的大规模重建方法33%的推理时间。

🔬 方法详解

问题定义：大规模场景的三维重建需要在精度和效率之间进行权衡。现有方法要么速度快但质量差，要么质量高但速度慢。此外，为了保证全局一致性，通常需要依赖外部的视觉定位识别（VPR）模型进行回环检测，这增加了计算负担。

核心思路：SwiftVGGT的核心思路是在保证重建质量的前提下，通过优化回环检测和点云对齐两个关键步骤来显著提升推理速度。它避免了对外部VPR模型的依赖，并采用了一种高效的点采样对齐方法。

技术框架：SwiftVGGT的整体框架包括以下几个主要阶段：1) 特征提取与匹配；2) 基于视觉几何的回环检测，无需外部VPR模型；3) 基于Sim(3)-SVD的点云块对齐；4) 密集三维重建。

关键创新：SwiftVGGT的关键创新在于：1) 无需外部VPR模型的回环检测，降低了计算复杂度；2) 基于单个Sim(3)-SVD步骤的点云块对齐，避免了耗时的迭代优化，显著提升了速度。

关键设计：SwiftVGGT的关键设计包括：1) 一种简单而有效的点采样方法，用于选择用于对齐的代表性点；2) 使用单个Sim(3)-SVD步骤进行点云块对齐，避免了迭代重加权最小二乘（IRLS）优化；3) 损失函数的设计可能包含几何一致性约束，以保证重建的准确性（具体细节未知）。

📊 实验亮点

SwiftVGGT在多个数据集上进行了评估，实验结果表明，该方法在保持最先进重建质量的同时，推理时间仅为现有基于VGGT的大规模重建方法的33%。这表明SwiftVGGT在效率方面取得了显著的提升，使其更适用于实际应用。

🎯 应用场景

SwiftVGGT在大规模场景的三维重建方面具有广泛的应用前景，例如自动驾驶、机器人导航、城市建模、虚拟现实和增强现实等领域。该方法能够快速且准确地重建大规模环境，为这些应用提供可靠的三维地图信息，具有重要的实际价值和潜在的未来影响。

📄 摘要（原文）

3D reconstruction in large-scale scenes is a fundamental task in 3D perception, but the inherent trade-off between accuracy and computational efficiency remains a significant challenge. Existing methods either prioritize speed and produce low-quality results, or achieve high-quality reconstruction at the cost of slow inference times. In this paper, we propose SwiftVGGT, a training-free method that significantly reduce inference time while preserving high-quality dense 3D reconstruction. To maintain global consistency in large-scale scenes, SwiftVGGT performs loop closure without relying on the external Visual Place Recognition (VPR) model. This removes redundant computation and enables accurate reconstruction over kilometer-scale environments. Furthermore, we propose a simple yet effective point sampling method to align neighboring chunks using a single Sim(3)-based Singular Value Decomposition (SVD) step. This eliminates the need for the Iteratively Reweighted Least Squares (IRLS) optimization commonly used in prior work, leading to substantial speed-ups. We evaluate SwiftVGGT on multiple datasets and show that it achieves state-of-the-art reconstruction quality while requiring only 33% of the inference time of recent VGGT-based large-scale reconstruction approaches.

SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册