FeatureSLAM: Feature-enriched 3D gaussian splatting SLAM in real time

📄 arXiv: 2601.05738v1 📥 PDF

作者: Christopher Thirgood, Oscar Mendez, Erin Ling, Jon Storey, Simon Hadfield

分类: cs.CV

发布日期: 2026-01-09


💡 一句话要点

FeatureSLAM:实时特征增强的3D高斯溅射SLAM系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: SLAM 3D高斯溅射 特征增强 实时跟踪 语义SLAM

📋 核心要点

  1. 现有语义SLAM方法依赖于预定义的类别标签,限制了其在新任务和开放环境中的应用。
  2. FeatureSLAM通过将密集特征栅格化集成到3DGS中,并与视觉基础模型对齐,实现了特征增强的实时SLAM。
  3. 实验结果表明,FeatureSLAM在保持实时性的同时,提高了跟踪稳定性、地图保真度,并支持自由视点开放集分割。

📝 摘要(中文)

本文提出了一种实时的跟踪SLAM系统,该系统将高效的相机跟踪与使用3D高斯溅射(3DGS)进行的光真实感特征增强映射相结合。主要贡献是将密集特征栅格化集成到新视角合成中,并与视觉基础模型对齐。这产生了强大的语义信息,超越了基本的RGB-D输入,有助于提高跟踪和映射的准确性。与以往的语义SLAM方法(嵌入预定义的类别标签)不同,FeatureSLAM通过自由视点、开放集分割实现了全新的下游任务。在标准基准测试中,该方法实现了实时跟踪,与最先进的系统相当,同时提高了跟踪稳定性和地图保真度,而没有过高的计算成本。定量分析表明,与最近的固定集SLAM基线相比,姿态误差降低了9%,映射精度提高了8%。结果证实,实时特征嵌入SLAM不仅对于实现新的下游应用有价值,而且还提高了底层跟踪和映射子系统的性能,提供了与离线3DGS模型相当的语义和语言掩蔽结果,以及最先进的跟踪、深度和RGB渲染。

🔬 方法详解

问题定义:现有的SLAM系统在语义理解方面存在局限性,通常依赖于预定义的类别标签,无法处理开放环境和新的下游任务。此外,将语义信息有效融入到实时SLAM系统中仍然是一个挑战,需要在计算效率和语义表达能力之间取得平衡。

核心思路:FeatureSLAM的核心思路是将视觉基础模型提取的密集特征集成到3D高斯溅射(3DGS)表示中,从而实现特征增强的场景表示。通过将特征栅格化与新视角合成对齐,系统能够利用这些特征来提高跟踪和映射的准确性,并支持自由视点、开放集分割等下游任务。

技术框架:FeatureSLAM的整体框架包括以下几个主要模块:1) 相机跟踪模块,负责估计相机的姿态;2) 3DGS映射模块,负责构建和优化场景的3D高斯表示;3) 特征提取模块,利用视觉基础模型提取图像的密集特征;4) 特征栅格化模块,将提取的特征投影到3D高斯表示中;5) 新视角合成模块,利用3D高斯表示和特征信息渲染新的视角。

关键创新:FeatureSLAM的关键创新在于将密集特征栅格化集成到3DGS SLAM系统中,并与视觉基础模型对齐。这使得系统能够超越基本的RGB-D输入,利用更丰富的语义信息来提高跟踪和映射的准确性,并支持新的下游任务。与以往的语义SLAM方法相比,FeatureSLAM不需要预定义的类别标签,具有更强的泛化能力。

关键设计:FeatureSLAM的关键设计包括:1) 使用高效的3DGS表示来构建场景地图;2) 利用视觉基础模型(例如CLIP)提取图像的密集特征;3) 设计了一种特征栅格化方法,将提取的特征投影到3D高斯表示中;4) 使用一种损失函数来优化3D高斯表示和特征信息,以提高跟踪和映射的准确性。具体的参数设置和网络结构在论文中有详细描述。

📊 实验亮点

FeatureSLAM在标准基准测试中取得了显著的性能提升。与最近的固定集SLAM基线相比,姿态误差降低了9%,映射精度提高了8%。此外,FeatureSLAM在保持实时性的同时,提供了与离线3DGS模型相当的语义和语言掩蔽结果。这些结果表明,FeatureSLAM不仅提高了跟踪和映射的准确性,而且还支持新的下游任务。

🎯 应用场景

FeatureSLAM具有广泛的应用前景,例如机器人导航、增强现实、虚拟现实、三维重建等。通过提供特征增强的场景表示,FeatureSLAM可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在AR/VR应用中,FeatureSLAM可以提供更真实、更沉浸式的体验。此外,FeatureSLAM还可以用于三维重建,生成高质量的3D模型。

📄 摘要(原文)

We present a real-time tracking SLAM system that unifies efficient camera tracking with photorealistic feature-enriched mapping using 3D Gaussian Splatting (3DGS). Our main contribution is integrating dense feature rasterization into the novel-view synthesis, aligned with a visual foundation model. This yields strong semantics, going beyond basic RGB-D input, aiding both tracking and mapping accuracy. Unlike previous semantic SLAM approaches (which embed pre-defined class labels) FeatureSLAM enables entirely new downstream tasks via free-viewpoint, open-set segmentation. Across standard benchmarks, our method achieves real-time tracking, on par with state-of-the-art systems while improving tracking stability and map fidelity without prohibitive compute. Quantitatively, we obtain 9\% lower pose error and 8\% higher mapping accuracy compared to recent fixed-set SLAM baselines. Our results confirm that real-time feature-embedded SLAM, is not only valuable for enabling new downstream applications. It also improves the performance of the underlying tracking and mapping subsystems, providing semantic and language masking results that are on-par with offline 3DGS models, alongside state-of-the-art tracking, depth and RGB rendering.