RGB-Only Gaussian Splatting SLAM for Unbounded Outdoor Scenes
作者: Sicheng Yu, Chong Cheng, Yifan Zhou, Xiaojun Yang, Hao Wang
分类: cs.CV
发布日期: 2025-02-21
备注: ICRA 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出OpenGS-SLAM,解决RGB-Only条件下室外场景的Gaussian Splatting SLAM问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: SLAM 3D高斯溅射 RGB-Only 室外场景 点图回归 位姿估计 新视角合成
📋 核心要点
- 现有基于高斯溅射的SLAM方法在室外场景中表现不佳,主要原因是依赖深度信息,而室外深度估计具有挑战性。
- OpenGS-SLAM利用点图回归网络生成帧间一致的点图进行位姿估计,点图包含更丰富的空间关系和场景几何信息。
- 通过端到端可微流水线,OpenGS-SLAM实现了相机位姿和3DGS场景参数的同步优化,显著提升了跟踪精度和新视角合成质量。
📝 摘要(中文)
本文提出了一种名为OpenGS-SLAM的RGB-Only高斯溅射SLAM方法,用于无界室外场景。现有基于高斯溅射的方法主要针对室内场景,依赖RGB-D传感器或预训练的深度估计模型,在室外场景中表现不佳。为了解决这个问题,我们首先采用点图回归网络生成帧间一致的点图,用于位姿估计。与常用的深度图相比,点图包含跨多个视角的空间关系和场景几何信息,从而实现鲁棒的相机位姿估计。然后,我们将估计的相机位姿与3DGS渲染集成到一个端到端的可微流水线中。我们的方法实现了相机位姿和3DGS场景参数的同步优化,显著提高了系统跟踪精度。此外,我们还为点图回归网络设计了一个自适应尺度映射器,为3DGS地图表示提供更准确的点图映射。在Waymo数据集上的实验表明,OpenGS-SLAM将跟踪误差降低到先前3DGS方法的9.8%,并在新视角合成方面取得了最先进的结果。
🔬 方法详解
问题定义:现有基于3D高斯溅射(3DGS)的SLAM方法主要针对室内场景,依赖RGB-D传感器或预训练的深度估计模型。在无界室外场景中,深度信息的获取通常比较困难且精度较低,导致这些方法性能下降。因此,如何在仅使用RGB图像的情况下,实现室外场景下准确和鲁棒的3DGS SLAM是一个关键问题。
核心思路:OpenGS-SLAM的核心思路是利用点图(pointmap)作为中间表示,替代传统的深度图。点图包含跨多个视角的空间关系和场景几何信息,能够提供更鲁棒的位姿估计。同时,将位姿估计和3DGS渲染集成到一个端到端的可微流水线中,实现联合优化,进一步提升性能。
技术框架:OpenGS-SLAM的整体框架包含以下几个主要模块:1) 点图回归网络:用于从RGB图像中预测点图;2) 位姿估计模块:利用点图进行帧间位姿估计;3) 3DGS渲染模块:将估计的相机位姿与3DGS场景参数结合,生成渲染图像;4) 优化模块:通过端到端的可微流水线,同步优化相机位姿和3DGS场景参数。
关键创新:OpenGS-SLAM的关键创新在于:1) 使用点图作为位姿估计的中间表示,相比深度图更鲁棒;2) 提出端到端的可微流水线,实现相机位姿和3DGS场景参数的联合优化;3) 设计了自适应尺度映射器,用于点图回归网络,提供更准确的点图映射到3DGS地图表示。
关键设计:点图回归网络采用了一种自适应尺度映射机制,根据场景的尺度变化调整点图的尺度,从而提高点图的精度和鲁棒性。损失函数包括渲染损失和几何一致性损失,用于约束渲染图像的质量和场景的几何一致性。具体网络结构和参数设置在论文中有详细描述,但摘要中未提供具体细节。
🖼️ 关键图片
📊 实验亮点
OpenGS-SLAM在Waymo数据集上进行了评估,实验结果表明,该方法将跟踪误差降低到先前3DGS方法的9.8%,并在新视角合成方面取得了最先进的结果。这些结果表明,OpenGS-SLAM在室外场景下具有显著的性能优势,能够实现更准确和鲁棒的SLAM。
🎯 应用场景
OpenGS-SLAM在自动驾驶、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于构建高精度、鲁棒的室外场景地图,为自动驾驶车辆提供可靠的环境感知信息。同时,也可以用于AR/VR应用中,提供更逼真的场景渲染和交互体验。此外,该方法还可以应用于机器人导航,帮助机器人在复杂的室外环境中进行自主导航。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has become a popular solution in SLAM, as it can produce high-fidelity novel views. However, previous GS-based methods primarily target indoor scenes and rely on RGB-D sensors or pre-trained depth estimation models, hence underperforming in outdoor scenarios. To address this issue, we propose a RGB-only gaussian splatting SLAM method for unbounded outdoor scenes--OpenGS-SLAM. Technically, we first employ a pointmap regression network to generate consistent pointmaps between frames for pose estimation. Compared to commonly used depth maps, pointmaps include spatial relationships and scene geometry across multiple views, enabling robust camera pose estimation. Then, we propose integrating the estimated camera poses with 3DGS rendering as an end-to-end differentiable pipeline. Our method achieves simultaneous optimization of camera poses and 3DGS scene parameters, significantly enhancing system tracking accuracy. Specifically, we also design an adaptive scale mapper for the pointmap regression network, which provides more accurate pointmap mapping to the 3DGS map representation. Our experiments on the Waymo dataset demonstrate that OpenGS-SLAM reduces tracking error to 9.8\% of previous 3DGS methods, and achieves state-of-the-art results in novel view synthesis. Project Page: https://3dagentworld.github.io/opengs-slam/