VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold

📄 arXiv: 2505.12549v2 📥 PDF

作者: Dominic Maggio, Hyungtae Lim, Luca Carlone

分类: cs.CV

发布日期: 2025-05-18 (更新: 2025-05-23)


💡 一句话要点

VGGT-SLAM:基于SL(4)流形优化的稠密RGB SLAM系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: SLAM RGB SLAM 稠密重建 单目视觉 射影几何 SL(4)流形 未标定相机

📋 核心要点

  1. 现有基于相似变换的子地图对齐方法在未标定相机下存在局限性,无法处理重建模糊性。
  2. VGGT-SLAM通过在SL(4)流形上优化,估计子地图间的15自由度单应变换,实现一致的场景重建。
  3. 实验表明,VGGT-SLAM能够处理VGGT无法处理的长视频序列,并提升了地图质量。

📝 摘要(中文)

本文提出了VGGT-SLAM,一个稠密的RGB SLAM系统。该系统通过增量式和全局对齐的方式构建子地图,这些子地图由前馈场景重建方法VGGT仅使用未标定的单目相机创建。与使用相似变换(即平移、旋转和尺度)对齐子地图的相关工作不同,我们表明这种方法在未标定相机的情况下是不充分的。特别地,我们重新审视了重建模糊性的概念,即给定一组未标定的相机,且对相机运动或场景结构没有任何假设,场景只能在真实几何结构的15自由度射影变换下进行重建。这启发我们通过在SL(4)流形上进行优化来恢复子地图之间一致的场景重建,从而估计连续子地图之间的15自由度单应变换,同时考虑潜在的闭环约束。通过大量的实验验证,我们证明了VGGT-SLAM在使用长视频序列时能够实现改进的地图质量,而VGGT由于其高GPU需求,无法处理这些长视频序列。

🔬 方法详解

问题定义:论文旨在解决使用未标定单目相机进行稠密RGB SLAM时,由于重建模糊性导致子地图对齐不准确的问题。现有方法通常使用相似变换(平移、旋转、尺度)对齐子地图,但在未标定相机的情况下,这种方法无法保证全局一致性,尤其是在长序列中累积误差会显著影响重建质量。

核心思路:论文的核心思路是利用射影几何的特性,认识到在未标定相机下,场景重建存在15自由度的射影模糊性。因此,通过在SL(4)流形上优化子地图之间的变换关系,估计15自由度的单应变换,从而消除重建模糊性,实现全局一致的场景重建。这种方法能够更好地处理未标定相机带来的不确定性。

技术框架:VGGT-SLAM的整体框架包括以下几个主要阶段:1) 使用VGGT进行局部场景重建,生成子地图;2) 通过特征匹配等方法建立子地图之间的对应关系;3) 在SL(4)流形上优化子地图之间的变换关系,估计单应变换;4) 进行全局优化,考虑闭环约束,进一步提高地图的精度和一致性。

关键创新:论文最重要的技术创新点在于将SL(4)流形引入到SLAM系统中,用于优化子地图之间的变换关系。与传统的基于相似变换的方法相比,这种方法能够更好地处理未标定相机带来的重建模糊性,从而实现更准确和一致的场景重建。这是在SLAM领域中对射影几何理论的有效应用。

关键设计:论文的关键设计包括:1) 使用VGGT作为前端,提供高质量的局部场景重建;2) 设计合适的损失函数,用于在SL(4)流形上优化子地图之间的变换关系,该损失函数需要考虑特征匹配的误差和闭环约束;3) 实现高效的SL(4)流形优化算法,以保证系统的实时性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VGGT-SLAM在使用长视频序列时,能够显著提升地图的质量和一致性。与传统的基于相似变换的SLAM系统相比,VGGT-SLAM能够更好地处理未标定相机带来的重建模糊性,从而实现更准确的场景重建。具体性能提升数据未知,但论文强调了其在长序列上的优势。

🎯 应用场景

VGGT-SLAM在机器人导航、增强现实、虚拟现实等领域具有广泛的应用前景。它可以用于构建高质量的3D地图,为机器人提供准确的环境感知信息,从而实现自主导航和避障。在AR/VR领域,它可以用于创建逼真的虚拟场景,提升用户体验。此外,该技术还可以应用于文物保护、城市建模等领域。

📄 摘要(原文)

We present VGGT-SLAM, a dense RGB SLAM system constructed by incrementally and globally aligning submaps created from the feed-forward scene reconstruction approach VGGT using only uncalibrated monocular cameras. While related works align submaps using similarity transforms (i.e., translation, rotation, and scale), we show that such approaches are inadequate in the case of uncalibrated cameras. In particular, we revisit the idea of reconstruction ambiguity, where given a set of uncalibrated cameras with no assumption on the camera motion or scene structure, the scene can only be reconstructed up to a 15-degrees-of-freedom projective transformation of the true geometry. This inspires us to recover a consistent scene reconstruction across submaps by optimizing over the SL(4) manifold, thus estimating 15-degrees-of-freedom homography transforms between sequential submaps while accounting for potential loop closure constraints. As verified by extensive experiments, we demonstrate that VGGT-SLAM achieves improved map quality using long video sequences that are infeasible for VGGT due to its high GPU requirements.