SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

📄 arXiv: 2511.17207v1 📥 PDF

作者: Kunyi Li, Michael Niemeyer, Sen Wang, Stefano Gasperini, Nassir Navab, Federico Tombari

分类: cs.CV, cs.RO

发布日期: 2025-11-21


💡 一句话要点

提出SING3R-SLAM以解决室内单目SLAM中的几何一致性问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: SLAM 3D重建 高斯表示 室内导航 增强现实 虚拟现实 几何一致性

📋 核心要点

  1. 现有的SLAM方法在整合密集3D重建时面临漂移和冗余点图的问题,影响了效率和后续应用。
  2. SING3R-SLAM通过结合局部一致的3D重建与全局高斯表示,优化场景几何和相机姿态,实现高效3D映射。
  3. 实验结果显示,SING3R-SLAM在跟踪精度上提升超过12%,并生成更细致的几何结构,展示了其优越性能。

📝 摘要(中文)

近年来,密集3D重建技术的进步使得局部几何的准确捕捉成为可能,但将其整合到SLAM中面临漂移和冗余点图的问题,限制了效率和后续任务的执行。为了解决这些问题,本文提出了SING3R-SLAM,一个基于高斯的全局一致且紧凑的密集RGB SLAM框架。其核心思想是将局部一致的3D重建与统一的全局高斯表示相结合,联合优化场景几何和相机姿态,从而实现高效且多功能的3D映射。SING3R-SLAM首先通过轻量级的跟踪和重建模块构建局部一致的子图,然后逐步对齐并融合这些子图,形成强制跨视图几何一致性的全局高斯图。实验表明,SING3R-SLAM在跟踪、3D重建和新视图渲染方面达到了最先进的水平,跟踪精度提升超过12%,并生成更细致的几何结构,同时保持紧凑且内存高效的全局表示。

🔬 方法详解

问题定义:本文旨在解决现有SLAM方法在整合密集3D重建时出现的漂移和冗余点图问题,这些问题限制了SLAM的效率和后续任务的执行。

核心思路:SING3R-SLAM的核心思路是将局部一致的3D重建与统一的全局高斯表示相结合,通过联合优化场景几何和相机姿态,来提高3D映射的效率和准确性。

技术框架:该方法首先通过轻量级的跟踪和重建模块构建局部一致的子图,然后逐步对齐并融合这些子图,形成一个全局高斯图,确保跨视图的几何一致性。

关键创新:SING3R-SLAM的主要创新在于其全局高斯表示的设计,使得局部重建和全局优化能够有效结合,显著提升了跟踪的稳定性和重建的精度。

关键设计:在技术细节上,SING3R-SLAM采用了轻量级的网络结构和特定的损失函数,以优化局部和全局的几何一致性,同时确保内存的高效使用。通过这些设计,系统能够在真实世界数据集上实现优异的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SING3R-SLAM在跟踪精度上提升超过12%,并在3D重建和新视图渲染方面达到了最先进的水平,生成的几何结构更加细致,且保持了紧凑的全局表示。

🎯 应用场景

SING3R-SLAM在室内导航、增强现实和虚拟现实等领域具有广泛的应用潜力。其高效的3D映射和跟踪能力可以为机器人导航、智能家居和游戏开发等提供强大的技术支持,推动相关技术的进步与普及。

📄 摘要(原文)

Recent advances in dense 3D reconstruction enable the accurate capture of local geometry; however, integrating them into SLAM is challenging due to drift and redundant point maps, which limit efficiency and downstream tasks, such as novel view synthesis. To address these issues, we propose SING3R-SLAM, a globally consistent and compact Gaussian-based dense RGB SLAM framework. The key idea is to combine locally consistent 3D reconstructions with a unified global Gaussian representation that jointly refines scene geometry and camera poses, enabling efficient and versatile 3D mapping for multiple downstream applications. SING3R-SLAM first builds locally consistent submaps through our lightweight tracking and reconstruction module, and then progressively aligns and fuses them into a global Gaussian map that enforces cross-view geometric consistency. This global map, in turn, provides feedback to correct local drift and enhance the robustness of tracking. Extensive experiments demonstrate that SING3R-SLAM achieves state-of-the-art tracking, 3D reconstruction, and novel view rendering, resulting in over 12% improvement in tracking and producing finer, more detailed geometry, all while maintaining a compact and memory-efficient global representation on real-world datasets.