Gaussian Splatting SLAM
作者: Hidenobu Matsuki, Riku Murai, Paul H. J. Kelly, Andrew J. Davison
分类: cs.CV, cs.RO
发布日期: 2023-12-11 (更新: 2024-04-14)
备注: CVPR2024 Highlight. First two authors contributed equally to this work. Project Page: https://rmurai.co.uk/projects/GaussianSplattingSLAM/
💡 一句话要点
首个基于3D高斯溅射的单目SLAM系统,实现高效、高质量的实时重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目SLAM 3D高斯溅射 实时重建 直接优化 几何正则化
📋 核心要点
- 单目SLAM在稠密重建中面临歧义性挑战,现有方法难以兼顾精度、效率和高质量渲染。
- 该方法利用3D高斯溅射作为统一表示,通过直接优化和几何正则化实现鲁棒跟踪和建图。
- 实验表明,该系统在视角合成和轨迹估计方面达到SOTA,并能重建微小和透明物体。
📝 摘要(中文)
本文提出了首个基于3D高斯溅射的单目SLAM系统,这是视觉SLAM中最基础但也是最具挑战性的设置。该方法以3fps的速率实时运行,仅使用高斯函数作为3D表示,统一了精确、高效的跟踪、建图和高质量渲染所需的表示。该方法专为具有挑战性的单目设置而设计,并且在有外部深度传感器可用时,可以无缝扩展到RGB-D SLAM。为了从实时相机连续地高保真地重建3D场景,需要进行多项创新。首先,为了超越原始的3DGS算法(该算法需要来自离线运动结构(SfM)系统的精确姿势),我们针对3D高斯函数制定了相机跟踪,并表明这能够实现快速而鲁棒的跟踪,并具有广泛的收敛范围。其次,通过利用高斯函数的显式性质,我们引入了几何验证和正则化来处理增量3D密集重建中出现的歧义。最后,我们引入了一个完整的SLAM系统,该系统不仅在新的视角合成和轨迹估计方面取得了最先进的结果,而且还重建了微小甚至透明的物体。
🔬 方法详解
问题定义:单目SLAM旨在仅使用单个摄像头实时构建场景的3D模型并估计相机位姿。现有方法,尤其是基于体素或神经辐射场的方法,在单目设置下容易出现歧义性,难以在精度、效率和高质量渲染之间取得平衡。原始的3D高斯溅射算法依赖于离线SfM系统提供的精确位姿,无法直接应用于SLAM。
核心思路:本文的核心思路是利用3D高斯溅射(3DGS)作为SLAM系统的统一表示。3DGS具有可微渲染的特性,可以直接优化相机位姿和场景结构。通过针对3D高斯函数进行直接优化,可以实现快速而鲁棒的相机跟踪。同时,利用高斯函数的显式性质,可以引入几何验证和正则化来处理重建过程中的歧义性。
技术框架:该SLAM系统包含以下主要模块:1) 相机跟踪:通过直接优化3D高斯函数来估计相机位姿。2) 地图构建:使用新的高斯函数来表示场景,并根据新的图像信息不断更新高斯函数的参数。3) 几何验证和正则化:利用高斯函数的显式性质来消除重建过程中的歧义性。4) 渲染:使用3D高斯溅射进行高质量的场景渲染。
关键创新:该方法的主要创新在于:1) 首次将3D高斯溅射应用于单目SLAM,实现了高效、高质量的实时重建。2) 提出了基于3D高斯函数的直接优化方法,实现了快速而鲁棒的相机跟踪。3) 引入了几何验证和正则化方法,有效处理了单目SLAM中的歧义性问题。
关键设计:相机跟踪使用直接优化方法,损失函数基于渲染图像与真实图像之间的差异。几何验证通过检查相邻高斯函数之间的几何一致性来消除歧义。正则化项用于约束高斯函数的形状和大小,防止过度拟合。系统采用增量式建图策略,逐步添加和优化高斯函数。
📊 实验亮点
该方法在多个数据集上进行了评估,并在视角合成和轨迹估计方面取得了最先进的结果。尤其值得一提的是,该系统能够重建微小甚至透明的物体,这在传统的SLAM系统中是难以实现的。实验结果表明,该方法在保证精度的同时,能够以3fps的速率实时运行。
🎯 应用场景
该研究成果可广泛应用于机器人导航、增强现实、虚拟现实、三维重建等领域。尤其在资源受限的移动设备上,该方法的高效性和高质量渲染能力具有重要价值。未来可进一步扩展到动态场景重建、语义SLAM等更复杂的应用场景。
📄 摘要(原文)
We present the first application of 3D Gaussian Splatting in monocular SLAM, the most fundamental but the hardest setup for Visual SLAM. Our method, which runs live at 3fps, utilises Gaussians as the only 3D representation, unifying the required representation for accurate, efficient tracking, mapping, and high-quality rendering. Designed for challenging monocular settings, our approach is seamlessly extendable to RGB-D SLAM when an external depth sensor is available. Several innovations are required to continuously reconstruct 3D scenes with high fidelity from a live camera. First, to move beyond the original 3DGS algorithm, which requires accurate poses from an offline Structure from Motion (SfM) system, we formulate camera tracking for 3DGS using direct optimisation against the 3D Gaussians, and show that this enables fast and robust tracking with a wide basin of convergence. Second, by utilising the explicit nature of the Gaussians, we introduce geometric verification and regularisation to handle the ambiguities occurring in incremental 3D dense reconstruction. Finally, we introduce a full SLAM system which not only achieves state-of-the-art results in novel view synthesis and trajectory estimation but also reconstruction of tiny and even transparent objects.