VGGT-Motion: Motion-Aware Calibration-Free Monocular SLAM for Long-Range Consistency

作者: Zhuang Xiong, Chen Zhang, Qingshan Xu, Wenbing Tao

分类: cs.CV

发布日期: 2026-02-05

💡 一句话要点

VGGT-Motion：面向长距离一致性的无标定单目SLAM系统

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 无标定 长距离 运动感知 位姿图优化

📋 核心要点

现有无标定单目SLAM在长序列上存在尺度漂移，运动无关分割导致零运动漂移，传统几何对齐计算量大。
提出VGGT-Motion，利用光流引导运动感知子地图构建，并设计锚点驱动的直接Sim(3)配准策略。
实验结果表明，VGGT-Motion显著提高了轨迹精度和效率，在长距离无标定单目SLAM中达到SOTA。

📝 摘要（中文）

本文提出VGGT-Motion，一种无标定单目SLAM系统，旨在实现公里级轨迹上的高效且鲁棒的全局一致性。现有基于3D视觉基础模型的无标定单目SLAM虽然取得进展，但在长序列上仍存在严重的尺度漂移。运动无关的分割破坏了上下文连贯性，导致零运动漂移，而传统的几何对齐计算成本高昂。VGGT-Motion首先提出一种运动感知子地图构建机制，利用光流引导自适应分割，剪除静态冗余，并封装转弯以实现稳定的局部几何。然后，设计了一种锚点驱动的直接Sim(3)配准策略，通过利用上下文平衡的锚点，实现免搜索、像素级密集对齐和高效的闭环，无需昂贵的特征匹配。最后，轻量级的子地图级位姿图优化以线性复杂度强制执行全局一致性，从而实现可扩展的长距离操作。实验表明，VGGT-Motion显著提高了轨迹精度和效率，在零样本、长距离无标定单目SLAM中实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决无标定单目SLAM在长距离轨迹上存在的尺度漂移问题。现有方法，如基于3D视觉基础模型的SLAM，在长序列上表现不佳。运动无关的子地图分割破坏了上下文连贯性，导致零运动漂移。传统的几何对齐方法，例如特征匹配，计算成本高昂，难以满足实时性需求。

核心思路：论文的核心思路是利用光流信息进行运动感知的子地图构建，并设计一种高效的锚点驱动的直接Sim(3)配准策略。通过光流引导，系统能够自适应地分割场景，去除静态冗余，并封装转弯，从而获得更稳定的局部几何结构。锚点驱动的配准策略避免了耗时的特征匹配，实现了像素级的密集对齐。

技术框架：VGGT-Motion系统主要包含三个阶段：1) 运动感知子地图构建：利用光流信息将图像序列分割成子地图，每个子地图代表一个相对稳定的局部场景。2) 锚点驱动的直接Sim(3)配准：在子地图之间进行配准，估计它们之间的相对位姿。该过程使用上下文平衡的锚点，实现免搜索的像素级密集对齐。3) 子地图级位姿图优化：利用所有子地图及其相对位姿构建位姿图，并通过优化该图来获得全局一致的地图。

关键创新：论文的关键创新在于运动感知的子地图构建和锚点驱动的直接Sim(3)配准策略。运动感知的子地图构建能够更好地保持上下文连贯性，减少零运动漂移。锚点驱动的配准策略避免了特征匹配，显著提高了配准效率。此外，轻量级的子地图级位姿图优化也保证了系统能够处理大规模场景。

关键设计：运动感知子地图构建中，光流阈值的选择会影响子地图的分割效果。锚点驱动的配准策略中，锚点的选择和上下文平衡策略至关重要。子地图级位姿图优化采用线性复杂度算法，保证了系统的可扩展性。具体的损失函数和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VGGT-Motion在长距离轨迹上的精度显著优于现有方法。例如，在公开数据集上，VGGT-Motion的轨迹误差降低了XX%，运行效率提高了YY%。该系统在零样本条件下也表现出色，无需针对特定场景进行训练或调整。

🎯 应用场景

VGGT-Motion具有广泛的应用前景，例如自动驾驶、机器人导航、增强现实等。该系统无需预先标定相机，能够在未知环境中快速构建地图并进行定位。其高效性和鲁棒性使其适用于资源受限的平台，例如无人机和移动机器人。未来，该技术有望应用于城市级别的三维重建和地图更新。

📄 摘要（原文）

Despite recent progress in calibration-free monocular SLAM via 3D vision foundation models, scale drift remains severe on long sequences. Motion-agnostic partitioning breaks contextual coherence and causes zero-motion drift, while conventional geometric alignment is computationally expensive. To address these issues, we propose VGGT-Motion, a calibration-free SLAM system for efficient and robust global consistency over kilometer-scale trajectories. Specifically, we first propose a motion-aware submap construction mechanism that uses optical flow to guide adaptive partitioning, prune static redundancy, and encapsulate turns for stable local geometry. We then design an anchor-driven direct Sim(3) registration strategy. By exploiting context-balanced anchors, it achieves search-free, pixel-wise dense alignment and efficient loop closure without costly feature matching. Finally, a lightweight submap-level pose graph optimization enforces global consistency with linear complexity, enabling scalable long-range operation. Experiments show that VGGT-Motion markedly improves trajectory accuracy and efficiency, achieving state-of-the-art performance in zero-shot, long-range calibration-free monocular SLAM.

VGGT-Motion: Motion-Aware Calibration-Free Monocular SLAM for Long-Range Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理