GS-LIVO: Real-Time LiDAR, Inertial, and Visual Multi-sensor Fused Odometry with Gaussian Mapping
作者: Sheng Hong, Chunran Zheng, Yishu Shen, Changze Li, Fu Zhang, Tong Qin, Shaojie Shen
分类: cs.RO, cs.CV
发布日期: 2025-01-15
💡 一句话要点
提出GS-LIVO,一种基于高斯映射的实时激光、惯性和视觉多传感器融合里程计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多传感器融合 SLAM 高斯溅射 实时定位 三维重建
📋 核心要点
- 现有的纯视觉3D高斯溅射方法依赖启发式点云稠密化,难以处理遮挡,且GPU内存和计算消耗高。
- GS-LIVO通过融合激光雷达、惯性和视觉信息,利用各自优势,构建全局高斯地图和滑动窗口,实现高效的SLAM。
- 该系统在NVIDIA Jetson Orin NX平台上实现实时性能,验证了其在资源受限环境下的可行性,并开源所有相关资源。
📝 摘要(中文)
本文提出了一种新颖的基于高斯分布的实时同步定位与建图(SLAM)系统。该系统包含一个全局高斯地图和一个高斯滑动窗口,以及一个基于IESKF的里程计。全局高斯地图由哈希索引的体素组成,这些体素组织在一个递归八叉树中,有效地覆盖了稀疏的空间体积,同时适应不同的细节和尺度。高斯地图通过多传感器融合初始化,并使用光度梯度进行优化。系统增量式地维护一个高斯滑动窗口,通过仅优化滑动窗口内的地图,显著降低了GPU计算和内存消耗。此外,本文还实现了一个与迭代误差状态卡尔曼滤波器(IESKF)紧耦合的多传感器融合里程计,利用高斯地图的实时更新和渲染。该系统是第一个可部署在资源受限的嵌入式系统上的实时高斯SLAM框架,已在NVIDIA Jetson Orin NX平台上进行了演示。该框架实现了实时性能,同时保持了强大的多传感器融合能力。所有实现算法、硬件设计和CAD模型都将公开发布。
🔬 方法详解
问题定义:现有基于视觉的3D高斯溅射(3D-GS)方法在SLAM中面临挑战,主要体现在点云稠密化依赖人工设计的启发式方法,难以处理遮挡情况,并且需要大量的GPU内存和计算资源。这些限制阻碍了3D-GS在资源受限平台上的实时应用。
核心思路:GS-LIVO的核心思路是利用激光雷达(LiDAR)、惯性测量单元(IMU)和视觉(Vision)传感器的互补特性,构建一个鲁棒且高效的SLAM系统。激光雷达提供精确的几何测量,相机提供丰富的纹理信息,IMU提供高频运动数据。通过多传感器融合,可以克服纯视觉方法的局限性,并提高定位和建图的精度和鲁棒性。
技术框架:GS-LIVO系统主要包含三个核心模块:多传感器数据采集与预处理、基于IESKF的紧耦合里程计、以及基于高斯分布的地图构建与优化。首先,系统采集LiDAR点云、相机图像和IMU数据,并进行预处理。然后,利用迭代误差状态卡尔曼滤波器(IESKF)实现紧耦合的多传感器融合里程计,估计载体的位姿。同时,系统维护一个全局高斯地图和一个高斯滑动窗口。全局高斯地图采用递归八叉树结构,实现高效的空间索引和多尺度表示。高斯滑动窗口用于局部地图的优化,降低计算复杂度。
关键创新:GS-LIVO的关键创新在于将3D高斯溅射与多传感器融合相结合,构建了一个实时、鲁棒且高效的SLAM系统。与传统的基于点云或体素的SLAM系统相比,GS-LIVO利用高斯分布表示场景,可以实现更精确的几何建模和更高效的渲染。此外,GS-LIVO采用滑动窗口策略,显著降低了GPU内存和计算消耗,使其能够在资源受限的嵌入式系统上运行。
关键设计:全局高斯地图采用哈希索引的体素组织在递归八叉树中,以实现高效的空间查询和多尺度表示。滑动窗口的大小需要根据场景的复杂度和计算资源进行调整。IESKF中的状态向量包括载体的位姿、速度、IMU偏差等。损失函数包括光度误差项和几何误差项,用于优化高斯分布的参数。
🖼️ 关键图片
📊 实验亮点
GS-LIVO在NVIDIA Jetson Orin NX平台上实现了实时性能,证明了其在资源受限环境下的可行性。实验结果表明,GS-LIVO能够构建精确且鲁棒的三维地图,并实现高精度的定位。此外,GS-LIVO的开源将促进相关领域的研究和应用。
🎯 应用场景
GS-LIVO具有广泛的应用前景,包括但不限于:机器人导航、自动驾驶、增强现实、虚拟现实、三维重建等。该系统能够在资源受限的嵌入式平台上运行,使其适用于移动机器人、无人机等应用场景。未来,可以进一步研究如何将GS-LIVO与语义信息相结合,实现更高级的场景理解和任务规划。
📄 摘要(原文)
In recent years, 3D Gaussian splatting (3D-GS) has emerged as a novel scene representation approach. However, existing vision-only 3D-GS methods often rely on hand-crafted heuristics for point-cloud densification and face challenges in handling occlusions and high GPU memory and computation consumption. LiDAR-Inertial-Visual (LIV) sensor configuration has demonstrated superior performance in localization and dense mapping by leveraging complementary sensing characteristics: rich texture information from cameras, precise geometric measurements from LiDAR, and high-frequency motion data from IMU. Inspired by this, we propose a novel real-time Gaussian-based simultaneous localization and mapping (SLAM) system. Our map system comprises a global Gaussian map and a sliding window of Gaussians, along with an IESKF-based odometry. The global Gaussian map consists of hash-indexed voxels organized in a recursive octree, effectively covering sparse spatial volumes while adapting to different levels of detail and scales. The Gaussian map is initialized through multi-sensor fusion and optimized with photometric gradients. Our system incrementally maintains a sliding window of Gaussians, significantly reducing GPU computation and memory consumption by only optimizing the map within the sliding window. Moreover, we implement a tightly coupled multi-sensor fusion odometry with an iterative error state Kalman filter (IESKF), leveraging real-time updating and rendering of the Gaussian map. Our system represents the first real-time Gaussian-based SLAM framework deployable on resource-constrained embedded systems, demonstrated on the NVIDIA Jetson Orin NX platform. The framework achieves real-time performance while maintaining robust multi-sensor fusion capabilities. All implementation algorithms, hardware designs, and CAD models will be publicly available.