Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM

📄 arXiv: 2511.16282v2 📥 PDF

作者: Gergely Dinya, Péter Halász, András Lőrincz, Kristóf Karacs, Anna Gelencsér-Horváth

分类: cs.CV

发布日期: 2025-11-20 (更新: 2025-11-27)


💡 一句话要点

提出基于VGGT的时序一致性3D地图构建方法,用于内存高效的语义SLAM

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 语义SLAM 视觉几何接地Transformer 时序一致性 3D地图构建 辅助导航

📋 核心要点

  1. 现有语义SLAM方法在构建大规模、时序一致的3D地图时,面临计算资源和内存消耗的挑战。
  2. 本文提出一种基于VGGT的语义SLAM框架,通过滑动窗口和子地图对齐,降低内存需求,实现高效的3D场景重建。
  3. 实验结果表明,该方法在辅助导航等实际场景中具有良好的适用性,能够实现时序一致的环境变化检测。

📝 摘要(中文)

本文提出了一种基于视觉几何接地的Transformer(VGGT)的快速时空场景理解框架。该流程旨在实现高效的、接近实时的性能,支持包括辅助导航在内的应用。为了实现3D场景表示的连续更新,我们使用滑动窗口处理图像流,对齐子地图,从而克服VGGT的高内存需求。我们利用VGGT的跟踪头将2D语义实例掩码聚合到3D对象中。为了实现时间一致性和更丰富的上下文推理,系统存储时间戳和实例级别的身份信息,从而能够检测环境中的变化。我们在著名的基准测试和专门为辅助导航场景设计的自定义数据集上评估了该方法。结果表明该框架适用于现实世界的场景。

🔬 方法详解

问题定义:现有的语义SLAM系统在处理大规模场景时,由于需要存储大量的3D信息和语义信息,因此内存消耗巨大。特别是对于基于Transformer的模型,其内存需求更高。此外,如何保证3D地图在时间上的连续性和一致性,即如何检测和处理环境中的动态变化,也是一个挑战。

核心思路:本文的核心思路是利用滑动窗口机制,将整个场景分解为多个子地图,并对这些子地图进行对齐,从而降低内存需求。同时,利用VGGT的跟踪头将2D语义实例掩码聚合到3D对象中,并存储时间戳和实例级别的身份信息,从而实现时间一致性和环境变化检测。

技术框架:该框架主要包含以下几个模块:1) 基于VGGT的2D语义分割和实例分割;2) 利用VGGT的跟踪头进行2D实例跟踪;3) 基于滑动窗口的子地图构建和对齐;4) 将2D语义实例掩码聚合到3D对象中;5) 存储时间戳和实例级别的身份信息,用于环境变化检测。整个流程以滑动窗口的方式处理图像流,不断更新3D场景表示。

关键创新:该方法最重要的创新点在于将VGGT应用于语义SLAM,并利用滑动窗口机制克服了VGGT的高内存需求。此外,利用VGGT的跟踪头进行2D实例跟踪,并存储时间戳和实例级别的身份信息,从而实现了时间一致性和环境变化检测。

关键设计:滑动窗口的大小和步长是关键参数,需要根据场景的大小和计算资源进行调整。子地图对齐的算法也需要仔细设计,以保证对齐的精度和效率。损失函数的设计需要考虑语义分割的准确性和实例跟踪的稳定性。

📊 实验亮点

论文在公开数据集和自定义数据集上进行了实验,验证了该方法的有效性。实验结果表明,该方法能够在保证语义分割和实例分割精度的前提下,有效地降低内存需求,并实现时间一致的环境变化检测。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于辅助导航、机器人自主探索、增强现实等领域。例如,在辅助导航中,该系统可以帮助视障人士理解周围环境,并检测环境中的障碍物和变化。在机器人自主探索中,该系统可以帮助机器人构建环境地图,并进行导航和避障。在增强现实中,该系统可以将虚拟对象与真实环境进行融合,并实现交互。

📄 摘要(原文)

We present a fast, spatio-temporal scene understanding framework based on Visual Geometry Grounded Transformer (VGGT). The proposed pipeline is designed to enable efficient, close to real-time performance, supporting applications including assistive navigation. To achieve continuous updates of the 3D scene representation, we process the image flow with a sliding window, aligning submaps, thereby overcoming VGGT's high memory demands. We exploit the VGGT tracking head to aggregate 2D semantic instance masks into 3D objects. To allow for temporal consistency and richer contextual reasoning the system stores timestamps and instance-level identities, thereby enabling the detection of changes in the environment. We evaluate the approach on well-known benchmarks and custom datasets specifically designed for assistive navigation scenarios. The results demonstrate the applicability of the framework to real-world scenarios.