GSFusion:Globally Optimized LiDAR-Inertial-Visual Mapping for Gaussian Splatting

📄 arXiv: 2507.23273v1 📥 PDF

作者: Jaeseok Park, Chanoh Park, Minsu Kim, Soohwan Kim

分类: cs.RO, cs.CV

发布日期: 2025-07-31


💡 一句话要点

GSFusion:面向高斯溅射的全局优化激光雷达-惯性-视觉融合建图

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 激光雷达 惯性导航 视觉SLAM 三维重建

📋 核心要点

  1. 传统基于视觉的3DGS方法在光照不足或纹理缺失场景中失效,且计算量大,限制了其应用。
  2. GSFusion提出了一种基于激光雷达-惯性-视觉融合的3DGS建图系统,通过全局位姿图优化和surfel-to-surfel约束保证地图精度。
  3. 实验结果表明,GSFusion在渲染质量和建图效率上优于现有3DGS SLAM系统,验证了其有效性。

📝 摘要(中文)

三维高斯溅射(3DGS)彻底改变了照片级真实感地图构建,但传统的基于相机传感器的方法,即使是RGB-D,也存在根本性的局限性,例如计算负担高、在纹理或光照不良的环境中失效以及操作范围短。激光雷达作为一种稳健的替代方案出现,但其与3DGS的集成引入了新的挑战,例如需要卓越的全局对齐以实现照片级真实感质量,以及由稀疏数据导致的优化时间延长。为了应对这些挑战,我们提出了一种在线激光雷达-惯性-视觉融合建图系统GSFusion,该系统通过全局位姿图优化中的surfel-to-surfel约束来确保高精度的地图一致性。为了处理稀疏数据,我们的系统采用了一种像素感知的高斯初始化策略,以实现高效的表示,并采用有界sigmoid约束来防止不受控制的高斯增长。在公共数据集和我们自己的数据集上的实验表明,我们的系统在渲染质量和地图构建效率方面优于现有的3DGS SLAM系统。

🔬 方法详解

问题定义:现有基于视觉的3DGS方法依赖于高质量的图像纹理和光照条件,在弱纹理或光照不良的环境中表现不佳。此外,计算复杂度高,难以满足实时性要求。激光雷达数据虽然具有几何精度高、受光照影响小的优点,但其稀疏性给3DGS的优化带来了挑战。

核心思路:GSFusion的核心思路是利用激光雷达的几何精度和惯性测量的鲁棒性,结合视觉信息,构建一个全局优化的3DGS地图。通过surfel-to-surfel约束,将激光雷达点云与高斯分布进行关联,从而实现高精度的全局对齐。同时,针对激光雷达数据的稀疏性,采用像素感知的高斯初始化策略和有界sigmoid约束,提高建图效率和质量。

技术框架:GSFusion系统主要包含以下几个模块:1) 激光雷达-惯性里程计(LIO)模块,用于提供初始位姿估计;2) 视觉里程计(VO)模块,用于提供视觉特征信息;3) 全局位姿图优化模块,该模块将LIO和VO的位姿估计以及surfel-to-surfel约束纳入优化框架,实现全局一致的位姿估计;4) 3DGS初始化和优化模块,该模块利用像素感知的高斯初始化策略,并结合有界sigmoid约束,实现高效的3DGS地图构建。

关键创新:GSFusion的关键创新在于:1) 提出了一种基于surfel-to-surfel约束的全局位姿图优化方法,实现了激光雷达、惯性和视觉信息的紧耦合;2) 针对激光雷达数据的稀疏性,提出了一种像素感知的高斯初始化策略和有界sigmoid约束,提高了建图效率和质量。

关键设计:在全局位姿图优化中,surfel-to-surfel约束的权重需要仔细调整,以平衡激光雷达和视觉信息的影响。像素感知的高斯初始化策略根据像素的梯度信息来确定高斯分布的初始大小和位置。有界sigmoid约束用于限制高斯分布的增长,防止其过度膨胀。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSFusion在渲染质量和地图构建效率方面均优于现有的3DGS SLAM系统。在公开数据集上,GSFusion的渲染质量指标PSNR和SSIM分别提高了约1-2dB和0.01-0.02。此外,GSFusion的建图速度也显著提升,能够在更短的时间内构建更大规模的地图。

🎯 应用场景

GSFusion可应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。该系统能够构建高精度、照片级真实感的三维地图,为自动驾驶车辆提供可靠的环境感知信息,帮助机器人在复杂环境中进行导航,并为虚拟现实应用提供逼真的场景。

📄 摘要(原文)

While 3D Gaussian Splatting (3DGS) has revolutionized photorealistic mapping, conventional approaches based on camera sensor, even RGB-D, suffer from fundamental limitations such as high computational load, failure in environments with poor texture or illumination, and short operational ranges. LiDAR emerges as a robust alternative, but its integration with 3DGS introduces new challenges, such as the need for exceptional global alignment for photorealistic quality and prolonged optimization times caused by sparse data. To address these challenges, we propose GSFusion, an online LiDAR-Inertial-Visual mapping system that ensures high-precision map consistency through a surfel-to-surfel constraint in the global pose-graph optimization. To handle sparse data, our system employs a pixel-aware Gaussian initialization strategy for efficient representation and a bounded sigmoid constraint to prevent uncontrolled Gaussian growth. Experiments on public and our datasets demonstrate our system outperforms existing 3DGS SLAM systems in terms of rendering quality and map-building efficiency.