VGGT-SLAM++
作者: Avilasha Mandal, Rajesh Kumar, Sudarshan Sunil Harithas, Chetan Arora
分类: cs.CV, cs.RO
发布日期: 2026-04-08
备注: 8 pages (main paper) + supplementary material. Accepted at CVPR 2026 Workshop (VOCVALC)
💡 一句话要点
VGGT-SLAM++:融合VGGT几何信息的精确、高效、可扩展视觉SLAM系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉SLAM Transformer 几何信息 数字高程图 视觉定位识别
📋 核心要点
- 现有基于Transformer的SLAM方法,如VGGT-SLAM,依赖稀疏回环检测,易产生短期位姿漂移。
- VGGT-SLAM++通过空间校正后端恢复高频率局部BA,利用DEM图构建和视觉定位识别稳定轨迹。
- 实验结果表明,VGGT-SLAM++在精度上达到SOTA,显著减少短期漂移,加速图收敛,保持全局一致性。
📝 摘要(中文)
VGGT-SLAM++是一个完整的视觉SLAM系统,它利用Visual Geometry Grounded Transformer (VGGT)提供的富含几何信息的输出。该系统包含一个融合VGGT前馈Transformer和Sim(3)解算的视觉里程计(前端),一个基于数字高程图(DEM)的图构建模块,以及一个后端,共同实现精确的大规模地图构建并限制内存占用。与之前主要依赖稀疏回环或全局Sim(3)流形约束的基于Transformer的SLAM流程(如VGGT-SLAM)不同,VGGT-SLAM++通过空间校正后端恢复了高频率的局部Bundle Adjustment (LBA),针对每个VGGT子图,构建一个密集的平面规范DEM,将其分割成小块,并计算它们的DINOv2嵌入,以将子图集成到共视关系图中。在共视窗口内使用视觉定位识别(VPR)模块检索空间邻居,触发频繁的局部优化,从而稳定轨迹。在标准SLAM基准测试中,VGGT-SLAM++实现了最先进的精度,显著减少了短期漂移,加速了图的收敛,并通过紧凑的DEM瓦片和亚线性检索保持了全局一致性。
🔬 方法详解
问题定义:现有基于Transformer的SLAM系统,如VGGT-SLAM,主要依赖稀疏的回环检测或全局Sim(3)流形约束,这导致了短期的位姿漂移问题,限制了其在复杂环境下的应用。此外,如何有效地利用Transformer提取的几何信息,构建鲁棒且高效的后端优化框架也是一个挑战。
核心思路:VGGT-SLAM++的核心思路是通过引入高频率的局部Bundle Adjustment (LBA)来解决短期漂移问题。它利用VGGT提取的几何信息构建数字高程图(DEM),并将其分割成小块,通过DINOv2嵌入进行视觉定位识别(VPR),从而在共视窗口内触发频繁的局部优化,稳定轨迹。这种设计允许系统在保持全局一致性的同时,实现更精确的局部地图构建。
技术框架:VGGT-SLAM++的整体框架包含三个主要模块:1) 视觉里程计(前端):融合VGGT前馈Transformer和Sim(3)解算,估计相机位姿。2) 基于DEM的图构建模块:为每个VGGT子图构建密集的平面规范DEM,并将其分割成小块,计算DINOv2嵌入,构建共视关系图。3) 后端优化:利用VPR模块在共视窗口内检索空间邻居,触发频繁的局部优化,并进行全局一致性维护。
关键创新:VGGT-SLAM++的关键创新在于其空间校正后端,它通过DEM图构建和视觉定位识别,实现了高频率的局部Bundle Adjustment。与传统的依赖稀疏回环检测的SLAM系统相比,VGGT-SLAM++能够更有效地利用VGGT提取的几何信息,减少短期漂移,提高地图构建的精度和鲁棒性。
关键设计:DEM图的构建采用平面规范表示,便于进行几何推理和优化。DINOv2嵌入用于视觉定位识别,能够有效地提取图像的语义信息,提高定位的准确性。局部优化采用Bundle Adjustment算法,优化相机位姿和地图点坐标。全局一致性维护采用图优化算法,保证地图的全局一致性。
🖼️ 关键图片
📊 实验亮点
VGGT-SLAM++在标准SLAM基准测试中取得了最先进的精度,显著减少了短期漂移,加速了图的收敛,并通过紧凑的DEM瓦片和亚线性检索保持了全局一致性。具体性能数据未知,但摘要强调了其在精度、收敛速度和全局一致性方面的显著提升。
🎯 应用场景
VGGT-SLAM++在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。其高精度和鲁棒性使其能够应用于复杂环境下的地图构建和定位任务。此外,其紧凑的地图表示和亚线性检索特性使其能够应用于大规模场景。
📄 摘要(原文)
We introduce VGGT-SLAM++, a complete visual SLAM system that leverages the geometry-rich outputs of the Visual Geometry Grounded Transformer (VGGT). The system comprises a visual odometry (front-end) fusing the VGGT feed-forward transformer and a Sim(3) solution, a Digital Elevation Map (DEM)-based graph construction module, and a back-end that jointly enable accurate large-scale mapping with bounded memory. While prior transformer-based SLAM pipelines such as VGGT-SLAM rely primarily on sparse loop closures or global Sim(3) manifold constraints - allowing short-horizon pose drift - VGGT-SLAM++ restores high-cadence local bundle adjustment (LBA) through a spatially corrective back-end. For each VGGT submap, we construct a dense planar-canonical DEM, partition it into patches, and compute their DINOv2 embeddings to integrate the submap into a covisibility graph. Spatial neighbors are retrieved using a Visual Place Recognition (VPR) module within the covisibility window, triggering frequent local optimization that stabilizes trajectories. Across standard SLAM benchmarks, VGGT-SLAM++ achieves state-of-the-art accuracy, substantially reducing short-term drift, accelerating graph convergence, and maintaining global consistency with compact DEM tiles and sublinear retrieval.