VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes

📄 arXiv: 2501.08286v1 📥 PDF

作者: Ke Wu, Zicheng Zhang, Muer Tie, Ziqing Ai, Zhongxue Gan, Wenchao Ding

分类: cs.RO, cs.CV

发布日期: 2025-01-14


💡 一句话要点

VINGS-Mono:单目视觉惯性高斯溅射SLAM,适用于大规模场景

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目SLAM 高斯溅射 视觉惯性里程计 回环检测 新视角合成

📋 核心要点

  1. 现有SLAM方法难以兼顾大规模场景下的实时性和高精度地图构建,尤其是在单目视觉条件下。
  2. VINGS-Mono利用高斯溅射的优势,结合VIO前端、2D高斯地图、NVS回环检测和动态擦除器,实现高效精确的地图构建。
  3. 实验表明,VINGS-Mono在定位精度、映射质量和渲染质量上均优于现有方法,并可在移动设备上实时运行。

📝 摘要(中文)

VINGS-Mono是一个为大型场景设计的单目(惯性)高斯溅射(GS)SLAM框架。该框架包含四个主要组成部分:VIO前端、2D高斯地图、NVS回环检测和动态擦除器。在VIO前端,RGB帧通过密集Bundle Adjustment和不确定性估计进行处理,以提取场景几何和位姿。基于此输出,映射模块增量式地构建和维护2D高斯地图。2D高斯地图的关键组件包括基于采样的光栅化器、分数管理器和位姿优化,它们共同提高了映射速度和定位精度,使得SLAM系统能够处理高达5000万个高斯椭球的大规模城市环境。为了确保大规模场景中的全局一致性,我们设计了一个回环检测模块,创新性地利用高斯溅射的新视角合成(NVS)能力进行回环检测和高斯地图的校正。此外,我们提出了一个动态擦除器来解决真实户外场景中不可避免的动态对象。在室内和室外环境中的大量评估表明,我们的方法实现了与视觉惯性里程计相当的定位性能,同时超越了最近的GS/NeRF SLAM方法。在映射和渲染质量方面,它也显著优于所有现有方法。此外,我们开发了一个移动应用程序,并验证了我们的框架仅使用智能手机摄像头和低频IMU传感器即可实时生成高质量的高斯地图。据我们所知,VINGS-Mono是第一个能够在户外环境中运行并支持公里级大型场景的单目高斯SLAM方法。

🔬 方法详解

问题定义:现有单目SLAM方法在大规模场景中面临挑战,例如累计误差导致的漂移、计算资源限制以及动态物体的干扰。基于NeRF或高斯溅射的SLAM方法虽然在渲染质量上有所提升,但在大规模场景下的实时性和鲁棒性仍有待提高。

核心思路:VINGS-Mono的核心在于利用高斯溅射(Gaussian Splatting)的快速渲染能力和可微分特性,结合视觉惯性里程计(VIO)的位姿估计,构建一个高效且精确的SLAM系统。通过2D高斯地图的增量式构建和NVS回环检测,实现全局一致性,并采用动态擦除器处理动态物体。

技术框架:VINGS-Mono框架主要包含四个模块:1) VIO前端:负责提取图像特征并进行位姿估计;2) 2D高斯地图:基于VIO前端的输出,增量式地构建和维护高斯地图,包含采样光栅化器、分数管理器和位姿优化;3) NVS回环检测:利用高斯溅射的新视角合成能力进行回环检测,并校正高斯地图;4) 动态擦除器:检测并移除场景中的动态物体。

关键创新:VINGS-Mono的关键创新在于将高斯溅射技术应用于单目SLAM,并设计了2D高斯地图和NVS回环检测模块,从而实现了大规模场景下的实时高精度地图构建。与现有方法相比,VINGS-Mono能够更好地处理动态物体,并具有更强的鲁棒性。

关键设计:2D高斯地图采用基于采样的光栅化器,加速渲染过程;分数管理器用于评估高斯点的质量,并进行筛选;位姿优化模块利用Bundle Adjustment进一步提高定位精度。NVS回环检测模块通过比较合成图像和真实图像的相似度进行回环检测。动态擦除器基于语义分割和运动一致性检测动态物体。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VINGS-Mono在室内和室外环境中进行了广泛的评估,结果表明其定位性能与视觉惯性里程计相当,同时在映射和渲染质量方面显著优于现有的GS/NeRF SLAM方法。该方法能够在智能手机上实时运行,并支持公里级的大规模场景。

🎯 应用场景

VINGS-Mono可应用于自动驾驶、机器人导航、增强现实、虚拟现实等领域。该技术能够帮助机器人或自动驾驶车辆在复杂环境中进行精确定位和地图构建,从而实现自主导航和环境感知。此外,VINGS-Mono还可用于创建高质量的3D场景模型,为AR/VR应用提供逼真的视觉体验。

📄 摘要(原文)

VINGS-Mono is a monocular (inertial) Gaussian Splatting (GS) SLAM framework designed for large scenes. The framework comprises four main components: VIO Front End, 2D Gaussian Map, NVS Loop Closure, and Dynamic Eraser. In the VIO Front End, RGB frames are processed through dense bundle adjustment and uncertainty estimation to extract scene geometry and poses. Based on this output, the mapping module incrementally constructs and maintains a 2D Gaussian map. Key components of the 2D Gaussian Map include a Sample-based Rasterizer, Score Manager, and Pose Refinement, which collectively improve mapping speed and localization accuracy. This enables the SLAM system to handle large-scale urban environments with up to 50 million Gaussian ellipsoids. To ensure global consistency in large-scale scenes, we design a Loop Closure module, which innovatively leverages the Novel View Synthesis (NVS) capabilities of Gaussian Splatting for loop closure detection and correction of the Gaussian map. Additionally, we propose a Dynamic Eraser to address the inevitable presence of dynamic objects in real-world outdoor scenes. Extensive evaluations in indoor and outdoor environments demonstrate that our approach achieves localization performance on par with Visual-Inertial Odometry while surpassing recent GS/NeRF SLAM methods. It also significantly outperforms all existing methods in terms of mapping and rendering quality. Furthermore, we developed a mobile app and verified that our framework can generate high-quality Gaussian maps in real time using only a smartphone camera and a low-frequency IMU sensor. To the best of our knowledge, VINGS-Mono is the first monocular Gaussian SLAM method capable of operating in outdoor environments and supporting kilometer-scale large scenes.