GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM

📄 arXiv: 2502.03228v2 📥 PDF

作者: Mingrui Li, Weijian Chen, Na Cheng, Jingyuan Xu, Dong Li, Hongyu Wang

分类: cs.RO, cs.CV

发布日期: 2025-02-05 (更新: 2025-02-18)

备注: The paper was accepted by ICRA 2025


💡 一句话要点

GARAD-SLAM:面向动态环境的实时3D高斯溅射SLAM系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: SLAM 3D高斯溅射 动态场景 实时渲染 高斯金字塔网络

📋 核心要点

  1. 现有基于3DGS的SLAM系统在动态环境中易出现建图错误和跟踪漂移,鲁棒性不足。
  2. GARAD-SLAM通过高斯金字塔网络进行动态分割,并施加渲染惩罚,实现动态移除和鲁棒建图。
  3. 实验表明,GARAD-SLAM在动态场景下,跟踪性能具有竞争力,渲染质量更高,伪影更少。

📝 摘要(中文)

本文提出GARAD-SLAM,一个专为动态场景设计的实时3D高斯溅射(3DGS) SLAM系统。针对现有基于3DGS的SLAM系统在动态环境中面临的建图错误和跟踪漂移问题,该方法通过高斯金字塔网络直接对高斯分布进行动态分割,并将分割结果反向映射到前端以获得动态点标签,从而实现精确的动态移除和鲁棒的跟踪。在建图方面,该方法对动态标记的高斯分布施加渲染惩罚,并通过网络更新这些高斯分布,以避免因简单剪枝而导致的不可逆的错误移除。在真实世界数据集上的实验结果表明,与基线方法相比,该方法在跟踪方面具有竞争力,并且在渲染方面生成更少的伪影和更高质量的重建。

🔬 方法详解

问题定义:现有基于3D高斯溅射(3DGS)的SLAM系统在处理包含动态对象的真实世界环境时,容易出现建图错误和跟踪漂移。这是因为动态对象的存在会干扰特征匹配和场景重建,导致SLAM系统性能下降。现有的解决方案通常依赖于预先的语义分割或光流估计,但这些方法计算成本高昂,且精度有限,难以满足实时性要求。

核心思路:GARAD-SLAM的核心思路是直接在高斯分布上进行动态分割,并利用分割结果指导跟踪和建图过程。通过高斯金字塔网络预测每个高斯分布的动态概率,从而实现对动态区域的精确识别和移除。此外,为了避免因简单剪枝导致的错误移除,该方法引入了渲染惩罚机制,对动态高斯分布进行约束性更新。

技术框架:GARAD-SLAM系统主要包含以下几个模块:1) 基于3DGS的SLAM前端,负责位姿估计和场景重建;2) 高斯金字塔网络,用于预测每个高斯分布的动态概率;3) 动态移除模块,根据动态概率移除或抑制动态高斯分布的影响;4) 渲染惩罚模块,对动态高斯分布施加渲染一致性约束,防止错误移除。整个流程是:前端进行位姿估计和场景重建,高斯金字塔网络进行动态分割,动态移除模块处理动态区域,渲染惩罚模块优化动态高斯分布,最终实现鲁棒的SLAM。

关键创新:GARAD-SLAM的关键创新在于直接在高斯分布上进行动态分割,避免了传统方法中对图像进行语义分割或光流估计的步骤,从而提高了效率和精度。此外,渲染惩罚机制的引入,有效地防止了因简单剪枝导致的错误移除,提高了建图的鲁棒性。

关键设计:高斯金字塔网络采用U-Net结构,输入是高斯分布的特征向量,输出是每个高斯分布的动态概率。渲染惩罚项被添加到损失函数中,用于约束动态高斯分布的更新。具体来说,渲染惩罚项鼓励动态高斯分布的渲染结果与静态场景的渲染结果保持一致,从而避免错误移除。动态概率的阈值用于确定哪些高斯分布被认为是动态的,并进行相应的处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GARAD-SLAM在真实世界数据集上进行了评估,实验结果表明,与基线方法相比,GARAD-SLAM在跟踪精度方面具有竞争力,并且在渲染质量方面有显著提升。具体来说,GARAD-SLAM生成的伪影更少,重建的场景更加完整和准确。定量指标方面的数据未知,但从定性结果来看,GARAD-SLAM在动态场景下的表现明显优于现有方法。

🎯 应用场景

GARAD-SLAM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,GARAD-SLAM可以帮助机器人在动态环境中进行鲁棒的定位和建图,从而实现自主导航。在自动驾驶中,GARAD-SLAM可以用于构建高精度的动态地图,为车辆提供更准确的环境感知信息。在增强现实中,GARAD-SLAM可以实现更逼真的虚拟物体与真实场景的融合。

📄 摘要(原文)

The 3D Gaussian Splatting (3DGS)-based SLAM system has garnered widespread attention due to its excellent performance in real-time high-fidelity rendering. However, in real-world environments with dynamic objects, existing 3DGS-based SLAM systems often face mapping errors and tracking drift issues. To address these problems, we propose GARAD-SLAM, a real-time 3DGS-based SLAM system tailored for dynamic scenes. In terms of tracking, unlike traditional methods, we directly perform dynamic segmentation on Gaussians and map them back to the front-end to obtain dynamic point labels through a Gaussian pyramid network, achieving precise dynamic removal and robust tracking. For mapping, we impose rendering penalties on dynamically labeled Gaussians, which are updated through the network, to avoid irreversible erroneous removal caused by simple pruning. Our results on real-world datasets demonstrate that our method is competitive in tracking compared to baseline methods, generating fewer artifacts and higher-quality reconstructions in rendering.