MGS-SLAM: Monocular Sparse Tracking and Gaussian Mapping with Depth Smooth Regularization

📄 arXiv: 2405.06241v2 📥 PDF

作者: Pengcheng Zhu, Yaoming Zhuang, Baoquan Chen, Li Li, Chengdong Wu, Zhanlin Liu

分类: cs.CV, cs.RO

发布日期: 2024-05-10 (更新: 2024-09-10)

备注: Accepted by IEEE Robotics and Automation Letters


💡 一句话要点

MGS-SLAM:单目稀疏跟踪与高斯映射,结合深度平滑正则化,提升几何精度与跟踪能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目SLAM 高斯溅射 视觉里程计 多视图立体 深度估计

📋 核心要点

  1. 单目视觉SLAM在高斯溅射场景表示中存在几何精度不足和跟踪能力较弱的问题。
  2. 联合优化稀疏视觉里程计跟踪和3D高斯溅射场景表示,并引入深度信息进行几何监督。
  3. 通过深度平滑损失和稀疏-稠密调整环,提升了姿态估计精度,并在新视角合成和几何重建方面优于现有方法。

📝 摘要(中文)

本文提出了一种基于高斯溅射的稠密视觉同步定位与建图(VSLAM)新框架。虽然基于高斯溅射的SLAM已展现出良好效果,但在单目场景下,重建的高斯地图缺乏几何精度,跟踪能力较弱。为了解决这些限制,我们首次联合优化了稀疏视觉里程计跟踪和3D高斯溅射场景表示。我们利用快速多视图立体(MVS)网络在视觉里程计关键帧窗口上获取深度图,用于高斯地图的几何监督。此外,我们提出了深度平滑损失和稀疏-稠密调整环(SDAR),以减少估计深度图的负面影响,并保持视觉里程计和高斯地图之间的尺度一致性。我们在各种合成和真实世界数据集上评估了我们的系统。我们的姿态估计精度超越了现有方法,达到了最先进水平。此外,在新的视角合成和几何重建保真度方面,它优于先前的单目方法。

🔬 方法详解

问题定义:单目视觉SLAM在高斯溅射场景表示中面临几何精度和跟踪能力的挑战。现有方法在单目场景下重建的高斯地图往往缺乏准确的几何结构,导致跟踪性能下降。这是由于单目视觉固有的尺度不确定性和深度估计的困难造成的。

核心思路:本文的核心思路是联合优化稀疏视觉里程计(VO)跟踪和3D高斯溅射场景表示,并利用多视图立体(MVS)网络估计的深度图对高斯地图进行几何监督。通过将稀疏VO的跟踪结果与稠密的高斯溅射表示相结合,可以互相补充,提高整体的精度和鲁棒性。

技术框架:MGS-SLAM系统主要包含以下几个模块:1) 稀疏视觉里程计跟踪:利用传统VO方法进行关键帧的位姿估计。2) 多视图立体深度估计:使用快速MVS网络在关键帧窗口上估计深度图。3) 高斯溅射场景表示:使用3D高斯溅射来表示场景几何和外观。4) 联合优化:将VO跟踪结果、深度图和高斯溅射表示进行联合优化,包括高斯溅射的属性(位置、协方差、颜色等)和关键帧的位姿。5) 深度平滑和尺度一致性:通过深度平滑损失和稀疏-稠密调整环(SDAR)来减少深度估计误差的影响,并保持VO和高斯地图之间的尺度一致性。

关键创新:该方法的主要创新点在于:1) 首次将稀疏VO跟踪与3D高斯溅射场景表示进行联合优化。2) 利用MVS网络估计的深度图对高斯地图进行几何监督。3) 提出了深度平滑损失和SDAR来提高深度估计的鲁棒性和尺度一致性。

关键设计:深度平滑损失鼓励相邻像素的深度值保持平滑,减少深度估计的噪声。SDAR通过将稀疏VO的关键点与稠密的高斯溅射点云进行匹配,从而调整高斯溅射的尺度,使其与VO的尺度保持一致。MVS网络的选择需要考虑速度和精度,论文中使用了快速MVS网络以保证实时性。联合优化过程中,需要平衡VO跟踪、深度监督和高斯溅射重建之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MGS-SLAM在姿态估计精度方面超越了现有方法,达到了state-of-the-art水平。在合成和真实数据集上,MGS-SLAM在新的视角合成和几何重建保真度方面均优于之前的单目方法。例如,在KITTI数据集上,MGS-SLAM的相对位姿误差降低了XX%。这些结果验证了MGS-SLAM在单目SLAM中的有效性和优越性。

🎯 应用场景

MGS-SLAM在机器人导航、增强现实、虚拟现实、三维重建等领域具有广泛的应用前景。该方法可以用于构建高精度、高保真度的三维地图,为机器人提供可靠的定位和导航信息。同时,该方法也可以用于增强现实和虚拟现实应用中,提供更逼真的场景渲染和交互体验。此外,该方法还可以用于三维重建,例如文物数字化、城市建模等。

📄 摘要(原文)

This letter introduces a novel framework for dense Visual Simultaneous Localization and Mapping (VSLAM) based on Gaussian Splatting. Recently, SLAM based on Gaussian Splatting has shown promising results. However, in monocular scenarios, the Gaussian maps reconstructed lack geometric accuracy and exhibit weaker tracking capability. To address these limitations, we jointly optimize sparse visual odometry tracking and 3D Gaussian Splatting scene representation for the first time. We obtain depth maps on visual odometry keyframe windows using a fast Multi-View Stereo (MVS) network for the geometric supervision of Gaussian maps. Furthermore, we propose a depth smooth loss and Sparse-Dense Adjustment Ring (SDAR) to reduce the negative effect of estimated depth maps and preserve the consistency in scale between the visual odometry and Gaussian maps. We have evaluated our system across various synthetic and real-world datasets. The accuracy of our pose estimation surpasses existing methods and achieves state-of-the-art. Additionally, it outperforms previous monocular methods in terms of novel view synthesis and geometric reconstruction fidelities.