GEVO: Memory-Efficient Monocular Visual Odometry Using Gaussians

📄 arXiv: 2409.09295v2 📥 PDF

作者: Dasong Gao, Peter Zhi Xuan Li, Vivienne Sze, Sertac Karaman

分类: cs.RO

发布日期: 2024-09-14 (更新: 2025-01-29)

备注: 8 pages

DOI: 10.1109/LRA.2025.3534683


💡 一句话要点

GEVO:基于高斯分布的内存高效单目视觉里程计,适用于移动设备。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目视觉里程计 高斯溅射 SLAM 内存优化 三维重建

📋 核心要点

  1. 现有基于高斯溅射的SLAM方法内存效率低,大量历史图像存储导致移动设备难以应用。
  2. GEVO通过渲染而非存储历史图像,并结合新的高斯初始化和优化技术,提升内存效率。
  3. 实验表明,GEVO在保持地图保真度的同时,内存占用降低至58MB,相比现有方法降低高达94倍。

📝 摘要(中文)

本文提出了一种基于高斯溅射(GS)的单目SLAM框架GEVO,旨在解决移动设备上内存受限的问题。现有的基于GS的SLAM方法为了减少灾难性遗忘,需要存储大量历史图像来重新训练高斯分布,这些图像占用的内存通常比地图本身高两个数量级。GEVO通过从现有地图中渲染(而非存储)过去图像,实现了与现有方法相当的保真度。同时,提出了新的高斯初始化和优化技术,以消除地图中的伪影并延缓渲染图像随时间的退化。在各种环境中,GEVO实现了可比的地图保真度,同时将内存开销降低到约58 MB,比现有方法低94倍。

🔬 方法详解

问题定义:现有的基于高斯溅射(GS)的SLAM方法,为了避免灾难性遗忘,需要存储大量的历史图像用于高斯分布的重训练。这些图像数据占据了绝大部分内存,使得整个SLAM系统难以在内存受限的移动设备上部署。因此,如何降低历史图像的存储需求,是本文要解决的核心问题。

核心思路:GEVO的核心思路是避免直接存储历史图像,而是通过从已经构建好的高斯溅射地图中渲染出这些图像。这样,只需要存储高斯溅射地图本身,而不需要存储大量的原始图像数据,从而显著降低内存占用。为了保证渲染图像的质量,论文还提出了新的高斯初始化和优化技术。

技术框架:GEVO的整体框架包括以下几个主要阶段:1) 使用单目相机获取图像序列;2) 利用前端视觉里程计估计相机位姿;3) 基于相机位姿和图像信息,构建和更新高斯溅射地图;4) 从高斯溅射地图中渲染出历史图像,用于优化和更新地图;5) 通过高斯初始化和优化技术,消除地图伪影,并延缓渲染图像的退化。

关键创新:GEVO最关键的创新在于使用渲染图像代替存储图像。这种方法极大地降低了内存需求,使得基于高斯溅射的SLAM系统能够在内存受限的移动设备上运行。此外,论文提出的高斯初始化和优化技术,能够有效提高渲染图像的质量,保证了SLAM系统的精度。

关键设计:GEVO的关键设计包括:1) 新的高斯初始化方法,用于在地图中添加新的高斯分布,并避免引入伪影;2) 高斯优化方法,用于调整高斯分布的参数,以提高地图的精度和渲染图像的质量;3) 损失函数的设计,用于指导高斯分布的优化过程,包括光度损失、深度损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GEVO在多个数据集上进行了评估,实验结果表明,GEVO在保持与现有方法相当的地图保真度的同时,显著降低了内存占用。具体来说,GEVO的内存开销约为58MB,比现有方法降低了高达94倍。这使得GEVO能够在内存受限的移动设备上运行,并实现高精度的三维重建。

🎯 应用场景

GEVO具有广泛的应用前景,尤其是在内存资源受限的移动设备上,例如微型机器人、智能手机和AR/VR头显等。它可以用于构建高精度的三维地图,实现增强现实、虚拟现实、机器人导航等功能。此外,GEVO还可以应用于无人机、自动驾驶等领域,为这些应用提供高精度、低内存的定位和建图能力。

📄 摘要(原文)

Constructing a high-fidelity representation of the 3D scene using a monocular camera can enable a wide range of applications on mobile devices, such as micro-robots, smartphones, and AR/VR headsets. On these devices, memory is often limited in capacity and its access often dominates the consumption of compute energy. Although Gaussian Splatting (GS) allows for high-fidelity reconstruction of 3D scenes, current GS-based SLAM is not memory efficient as a large number of past images is stored to retrain Gaussians for reducing catastrophic forgetting. These images often require two-orders-of-magnitude higher memory than the map itself and thus dominate the total memory usage. In this work, we present GEVO, a GS-based monocular SLAM framework that achieves comparable fidelity as prior methods by rendering (instead of storing) them from the existing map. Novel Gaussian initialization and optimization techniques are proposed to remove artifacts from the map and delay the degradation of the rendered images over time. Across a variety of environments, GEVO achieves comparable map fidelity while reducing the memory overhead to around 58 MBs, which is up to 94x lower than prior works.