VGGT-Motion: Motion-Aware Calibration-Free Monocular SLAM for Long-Range Consistency
作者: Zhuang Xiong, Chen Zhang, Qingshan Xu, Wenbing Tao
分类: cs.CV
发布日期: 2026-02-05
💡 一句话要点
VGGT-Motion:面向长距离一致性的无标定单目SLAM系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目SLAM 无标定 长距离 运动感知 位姿图优化
📋 核心要点
- 现有无标定单目SLAM在长序列上存在尺度漂移,运动无关分割导致零运动漂移,传统几何对齐计算量大。
- 提出VGGT-Motion,利用光流引导运动感知子地图构建,并设计锚点驱动的直接Sim(3)配准策略。
- 实验结果表明,VGGT-Motion显著提高了轨迹精度和效率,在长距离无标定单目SLAM中达到SOTA。
📝 摘要(中文)
本文提出VGGT-Motion,一种无标定单目SLAM系统,旨在实现公里级轨迹上的高效且鲁棒的全局一致性。现有基于3D视觉基础模型的无标定单目SLAM虽然取得进展,但在长序列上仍存在严重的尺度漂移。运动无关的分割破坏了上下文连贯性,导致零运动漂移,而传统的几何对齐计算成本高昂。VGGT-Motion首先提出一种运动感知子地图构建机制,利用光流引导自适应分割,剪除静态冗余,并封装转弯以实现稳定的局部几何。然后,设计了一种锚点驱动的直接Sim(3)配准策略,通过利用上下文平衡的锚点,实现免搜索、像素级密集对齐和高效的闭环,无需昂贵的特征匹配。最后,轻量级的子地图级位姿图优化以线性复杂度强制执行全局一致性,从而实现可扩展的长距离操作。实验表明,VGGT-Motion显著提高了轨迹精度和效率,在零样本、长距离无标定单目SLAM中实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决无标定单目SLAM在长距离轨迹上存在的尺度漂移问题。现有方法,如基于3D视觉基础模型的SLAM,在长序列上表现不佳。运动无关的子地图分割破坏了上下文连贯性,导致零运动漂移。传统的几何对齐方法,例如特征匹配,计算成本高昂,难以满足实时性需求。
核心思路:论文的核心思路是利用光流信息进行运动感知的子地图构建,并设计一种高效的锚点驱动的直接Sim(3)配准策略。通过光流引导,系统能够自适应地分割场景,去除静态冗余,并封装转弯,从而获得更稳定的局部几何结构。锚点驱动的配准策略避免了耗时的特征匹配,实现了像素级的密集对齐。
技术框架:VGGT-Motion系统主要包含三个阶段:1) 运动感知子地图构建:利用光流信息将图像序列分割成子地图,每个子地图代表一个相对稳定的局部场景。2) 锚点驱动的直接Sim(3)配准:在子地图之间进行配准,估计它们之间的相对位姿。该过程使用上下文平衡的锚点,实现免搜索的像素级密集对齐。3) 子地图级位姿图优化:利用所有子地图及其相对位姿构建位姿图,并通过优化该图来获得全局一致的地图。
关键创新:论文的关键创新在于运动感知的子地图构建和锚点驱动的直接Sim(3)配准策略。运动感知的子地图构建能够更好地保持上下文连贯性,减少零运动漂移。锚点驱动的配准策略避免了特征匹配,显著提高了配准效率。此外,轻量级的子地图级位姿图优化也保证了系统能够处理大规模场景。
关键设计:运动感知子地图构建中,光流阈值的选择会影响子地图的分割效果。锚点驱动的配准策略中,锚点的选择和上下文平衡策略至关重要。子地图级位姿图优化采用线性复杂度算法,保证了系统的可扩展性。具体的损失函数和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VGGT-Motion在长距离轨迹上的精度显著优于现有方法。例如,在公开数据集上,VGGT-Motion的轨迹误差降低了XX%,运行效率提高了YY%。该系统在零样本条件下也表现出色,无需针对特定场景进行训练或调整。
🎯 应用场景
VGGT-Motion具有广泛的应用前景,例如自动驾驶、机器人导航、增强现实等。该系统无需预先标定相机,能够在未知环境中快速构建地图并进行定位。其高效性和鲁棒性使其适用于资源受限的平台,例如无人机和移动机器人。未来,该技术有望应用于城市级别的三维重建和地图更新。
📄 摘要(原文)
Despite recent progress in calibration-free monocular SLAM via 3D vision foundation models, scale drift remains severe on long sequences. Motion-agnostic partitioning breaks contextual coherence and causes zero-motion drift, while conventional geometric alignment is computationally expensive. To address these issues, we propose VGGT-Motion, a calibration-free SLAM system for efficient and robust global consistency over kilometer-scale trajectories. Specifically, we first propose a motion-aware submap construction mechanism that uses optical flow to guide adaptive partitioning, prune static redundancy, and encapsulate turns for stable local geometry. We then design an anchor-driven direct Sim(3) registration strategy. By exploiting context-balanced anchors, it achieves search-free, pixel-wise dense alignment and efficient loop closure without costly feature matching. Finally, a lightweight submap-level pose graph optimization enforces global consistency with linear complexity, enabling scalable long-range operation. Experiments show that VGGT-Motion markedly improves trajectory accuracy and efficiency, achieving state-of-the-art performance in zero-shot, long-range calibration-free monocular SLAM.