RMGS-SLAM: Real-time Multi-sensor Gaussian Splatting SLAM
作者: Dongen Li, Yi Liu, Junqi Liu, Zewen Sun, Zefan Huang, Shuo Sun, Jiahui Liu, Chengran Yuan, Hongliang Guo, Francis E. H. Tay, Marcelo H. Ang
分类: cs.RO
发布日期: 2026-04-14
💡 一句话要点
提出RMGS-SLAM,实现大规模场景下实时多传感器融合的3D高斯溅射SLAM
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: SLAM 3D高斯溅射 多传感器融合 激光雷达 惯性导航 视觉定位 全局一致性
📋 核心要点
- 现有基于3D高斯溅射的SLAM方法难以兼顾低延迟位姿估计、与传感器数据同步的3D高斯重建以及长期全局一致性。
- RMGS-SLAM采用紧耦合LIV融合,并行执行状态估计和高斯初始化与全局优化,并利用级联策略和体素PCA先验加速收敛。
- 实验结果表明,该方法在真实场景中实现了实时性、定位精度和渲染质量的平衡,并在大规模数据集上进行了验证。
📝 摘要(中文)
本文提出了一种紧耦合的激光雷达-惯性-视觉(LIV)3D高斯溅射(3DGS)SLAM框架,用于大规模真实场景中的实时位姿估计和照片级真实感地图构建。该系统并行执行状态估计和3D高斯基元初始化与全局高斯优化,从而实现连续的密集地图构建。为了提高高斯初始化质量并加速优化收敛,我们引入了一种级联策略,该策略结合了前馈预测和基于体素的主成分分析(voxel-PCA)几何先验。为了增强大型场景中的全局一致性,我们通过基于高斯的广义迭代最近点(GICP)配准估计循环约束,直接在优化的全局高斯地图上执行闭环检测,然后进行位姿图优化。此外,我们收集了具有硬件同步的激光雷达-相机-IMU和地面真值轨迹的大规模闭环户外SLAM序列,以支持真实和全面的评估。在公共数据集和我们数据集上的大量实验表明,所提出的方法在各种具有挑战性的真实场景中,在实时效率、定位精度和渲染质量之间取得了强大的平衡。
🔬 方法详解
问题定义:现有基于3D高斯溅射的SLAM方法在大规模真实场景中面临挑战,难以同时实现低延迟的位姿估计、与传感器数据流同步的3D高斯重建,以及保证长期的全局一致性。这些痛点限制了其在实际应用中的部署。
核心思路:RMGS-SLAM的核心思路是采用紧耦合的激光雷达-惯性-视觉(LIV)融合框架,通过并行执行状态估计和3D高斯基元初始化与全局高斯优化,实现连续的密集地图构建。同时,利用级联策略和体素PCA几何先验来提高高斯初始化质量并加速优化收敛。通过在优化的全局高斯地图上进行闭环检测和位姿图优化,增强全局一致性。
技术框架:RMGS-SLAM的整体框架包含以下几个主要模块:1) 传感器数据预处理:对激光雷达、相机和IMU数据进行同步和校准。2) 状态估计与3D高斯基元初始化:并行执行,利用LIV数据进行位姿估计,并初始化3D高斯基元。3) 全局高斯优化:对高斯基元进行优化,提高地图质量。4) 闭环检测与位姿图优化:检测闭环,并进行位姿图优化,保证全局一致性。
关键创新:该方法的主要创新点在于:1) 紧耦合的LIV融合框架,能够充分利用多传感器信息,提高位姿估计精度和鲁棒性。2) 级联策略和体素PCA几何先验,能够提高高斯初始化质量并加速优化收敛。3) 直接在优化的全局高斯地图上进行闭环检测,避免了传统方法中需要将高斯地图转换为其他形式的中间步骤,提高了效率。
关键设计:级联策略结合了前馈预测和voxel-PCA几何先验。前馈预测可能使用神经网络预测高斯参数,voxel-PCA则利用体素内的点云进行主成分分析,估计高斯基元的形状和方向。闭环检测采用基于高斯的广义迭代最近点(GICP)配准,损失函数的设计需要考虑高斯分布的特性,例如KL散度等。位姿图优化则采用传统的优化方法,例如g2o或ceres solver。
🖼️ 关键图片
📊 实验亮点
该论文在公共数据集和作者自建的大规模数据集上进行了实验验证。实验结果表明,RMGS-SLAM在实时性、定位精度和渲染质量之间取得了良好的平衡。与现有方法相比,该方法在定位精度和渲染质量方面均有显著提升,同时保持了较高的实时性。
🎯 应用场景
RMGS-SLAM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以用于构建高精度、照片级真实感的三维地图,为机器人提供可靠的定位和导航信息。此外,该方法还可以应用于城市建模、虚拟现实等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Real-time 3D Gaussian splatting (3DGS)-based Simultaneous Localization and Mapping (SLAM) in large-scale real-world environments remains challenging, as existing methods often struggle to jointly achieve low-latency pose estimation, 3D Gaussian reconstruction in step with incoming sensor streams, and long-term global consistency. In this paper, we present a tightly coupled LiDAR-Inertial-Visual (LIV) 3DGS-based SLAM framework for real-time pose estimation and photorealistic mapping in large-scale real-world scenes. The system executes state estimation and 3D Gaussian primitive initialization in parallel with global Gaussian optimization, thereby enabling continuous dense mapping. To improve Gaussian initialization quality and accelerate optimization convergence, we introduce a cascaded strategy that combines feed-forward predictions with voxel-based principal component analysis (voxel-PCA) geometric priors. To enhance global consistency in large scenes, we further perform loop closure directly on the optimized global Gaussian map by estimating loop constraints through Gaussian-based Generalized Iterative Closest Point (GICP) registration, followed by pose-graph optimization. In addition, we collected challenging large-scale looped outdoor SLAM sequences with hardware-synchronized LiDAR-camera-IMU and ground-truth trajectories to support realistic and comprehensive evaluation. Extensive experiments on both public datasets and our dataset demonstrate that the proposed method achieves a strong balance among real-time efficiency, localization accuracy, and rendering quality across diverse and challenging real-world scenes.