GigaSLAM: Large-Scale Monocular SLAM with Hierarchical Gaussian Splats
作者: Kai Deng, Yigong Zhang, Jian Yang, Jin Xie
分类: cs.RO, cs.CV
发布日期: 2025-03-11 (更新: 2025-06-10)
🔗 代码/项目: GITHUB
💡 一句话要点
GigaSLAM:首个基于分层高斯溅射的大规模单目SLAM系统,适用于室外环境。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目SLAM 高斯溅射 大规模场景 分层表示 室外环境
📋 核心要点
- 现有NeRF和3DGS SLAM方法难以处理大规模、无边界的室外环境,限制了其应用范围。
- GigaSLAM采用分层高斯溅射表示,结合神经网络解码,实现高效的地图构建和高质量渲染。
- GigaSLAM在多个数据集上验证了其高精度跟踪和视觉逼真渲染能力,适用于大规模场景。
📝 摘要(中文)
GigaSLAM是一个基于RGB图像的NeRF/3DGS SLAM框架,专为公里级室外环境设计。现有SLAM系统在仅使用单目RGB输入的情况下,难以应对大规模、无边界的室外环境。GigaSLAM通过分层稀疏体素地图表示,利用神经网络在多个细节层次上解码高斯分布,实现了高效、可扩展的地图构建和高保真视点渲染。前端跟踪结合了度量深度模型、对极几何和PnP算法,以精确估计位姿。同时,引入了基于词袋模型的闭环检测机制,以保持长轨迹上的鲁棒对齐。在KITTI、KITTI 360、4 Seasons和A2D2数据集上的实验表明,GigaSLAM能够提供高精度跟踪和视觉逼真的渲染效果,为大规模、长期场景提供了一个强大的SLAM解决方案,显著扩展了高斯溅射SLAM系统在无边界室外环境中的适用性。
🔬 方法详解
问题定义:现有基于NeRF和3DGS的SLAM方法通常局限于小规模、有界室内环境,难以直接应用于大规模、无边界的室外场景。这些方法在计算复杂度和内存消耗上存在瓶颈,难以处理室外场景的复杂几何结构和光照变化。
核心思路:GigaSLAM的核心思路是采用分层稀疏体素地图来表示场景,并在不同层级上使用神经网络解码高斯分布。这种分层结构允许系统在不同尺度上表示场景,从而提高效率和可扩展性。同时,结合度量深度信息和闭环检测,提高跟踪的鲁棒性和精度。
技术框架:GigaSLAM包含前端跟踪和后端优化两个主要模块。前端跟踪利用度量深度模型、对极几何和PnP算法进行位姿估计。后端优化则基于分层高斯溅射表示,通过优化高斯参数和位姿来构建地图。闭环检测模块基于词袋模型,用于检测并纠正累积误差。
关键创新:GigaSLAM的关键创新在于其分层高斯溅射表示方法。与传统的NeRF或3DGS方法相比,GigaSLAM能够更有效地表示大规模场景,并实现更快的渲染速度。此外,结合度量深度信息和闭环检测,提高了跟踪的鲁棒性和精度。
关键设计:GigaSLAM的分层体素地图包含多个层级,每个层级对应不同的分辨率。神经网络用于解码每个体素中的高斯分布参数。损失函数包括渲染损失、深度损失和正则化项。闭环检测模块使用DBoW2库实现,用于检测相似场景并进行位姿校正。
🖼️ 关键图片
📊 实验亮点
GigaSLAM在KITTI、KITTI 360、4 Seasons和A2D2数据集上进行了评估,结果表明其能够实现高精度的跟踪和视觉逼真的渲染效果。与现有方法相比,GigaSLAM在大规模室外场景中表现出更强的鲁棒性和可扩展性。具体性能数据和对比基线信息可在论文原文和开源代码中找到。
🎯 应用场景
GigaSLAM在自动驾驶、城市建模、增强现实等领域具有广泛的应用前景。它可以用于构建大规模、高精度的三维地图,为自动驾驶车辆提供可靠的环境感知。此外,GigaSLAM还可以用于创建逼真的虚拟现实体验,以及进行城市规划和管理。
📄 摘要(原文)
Tracking and mapping in large-scale, unbounded outdoor environments using only monocular RGB input presents substantial challenges for existing SLAM systems. Traditional Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) SLAM methods are typically limited to small, bounded indoor settings. To overcome these challenges, we introduce GigaSLAM, the first RGB NeRF / 3DGS-based SLAM framework for kilometer-scale outdoor environments, as demonstrated on the KITTI, KITTI 360, 4 Seasons and A2D2 datasets. Our approach employs a hierarchical sparse voxel map representation, where Gaussians are decoded by neural networks at multiple levels of detail. This design enables efficient, scalable mapping and high-fidelity viewpoint rendering across expansive, unbounded scenes. For front-end tracking, GigaSLAM utilizes a metric depth model combined with epipolar geometry and PnP algorithms to accurately estimate poses, while incorporating a Bag-of-Words-based loop closure mechanism to maintain robust alignment over long trajectories. Consequently, GigaSLAM delivers high-precision tracking and visually faithful rendering on urban outdoor benchmarks, establishing a robust SLAM solution for large-scale, long-term scenarios, and significantly extending the applicability of Gaussian Splatting SLAM systems to unbounded outdoor environments. GitHub: https://github.com/DengKaiCQ/GigaSLAM.