UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments

📄 arXiv: 2505.22335v1 📥 PDF

作者: Wancai Zheng, Linlin Ou, Jiajie He, Libo Zhou, Xinyi Yu, Yan Wei

分类: cs.RO, cs.CV

发布日期: 2025-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

UP-SLAM:动态环境下基于不确定性预测的自适应结构高斯SLAM

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: SLAM 3D高斯溅射 动态环境 不确定性预测 概率八叉树 RGB-D 实时建图

📋 核心要点

  1. 现有3D高斯溅射SLAM方法在动态环境中面临实时性和鲁棒性挑战,主要由于其顺序优化框架和对动态对象的敏感性。
  2. UP-SLAM通过并行化跟踪和建图,并引入概率八叉树管理高斯基元,以及无需训练的不确定性估计器来过滤动态区域,从而解决上述问题。
  3. 实验结果表明,UP-SLAM在定位精度和渲染质量上均超越现有技术,同时保持实时性能,并生成高质量的静态地图。

📝 摘要(中文)

本文提出UP-SLAM,一个用于动态环境的实时RGB-D SLAM系统,通过并行化框架解耦了跟踪和建图。系统采用概率八叉树自适应地管理高斯基元,实现高效的初始化和剪枝,无需手动设置阈值。为了在跟踪过程中稳健地过滤动态区域,提出了一种无需训练的不确定性估计器,该估计器融合多模态残差来估计每个像素的运动不确定性,从而实现开放集动态对象处理,无需依赖语义标签。此外,设计了一个时间编码器来提高渲染质量。同时,通过一个浅层多层感知器有效地转换低维特征,以构建DINO特征,然后将其用于丰富高斯场并提高不确定性预测的鲁棒性。在多个具有挑战性的数据集上的大量实验表明,UP-SLAM在定位精度(提高59.8%)和渲染质量(提高4.57 dB PSNR)方面均优于最先进的方法,同时保持了实时性能,并在动态环境中生成可重用的、无伪影的静态地图。

🔬 方法详解

问题定义:现有基于3D高斯溅射的SLAM方法在动态环境中表现不佳,主要原因是其顺序优化框架难以处理动态对象,并且对动态对象非常敏感,导致定位精度下降和地图质量降低。此外,现有方法通常依赖于语义分割等先验信息来检测和过滤动态对象,这限制了其在开放环境中的应用。

核心思路:UP-SLAM的核心思路是将跟踪和建图解耦,通过并行化处理提高实时性。同时,利用概率八叉树自适应地管理高斯基元,实现高效的初始化和剪枝。最重要的是,提出了一种无需训练的不确定性估计器,通过融合多模态残差来估计每个像素的运动不确定性,从而实现动态对象的稳健过滤,无需依赖语义标签。

技术框架:UP-SLAM系统主要包含三个并行运行的模块:跟踪模块、建图模块和渲染模块。跟踪模块负责估计相机位姿,并利用不确定性估计器过滤动态区域。建图模块利用概率八叉树管理高斯基元,并根据跟踪结果更新地图。渲染模块则利用时间编码器提高渲染质量。DINO特征被用于丰富高斯场,提高不确定性预测的鲁棒性。

关键创新:UP-SLAM的关键创新在于其无需训练的不确定性估计器,该估计器通过融合多模态残差(例如,光度残差、深度残差)来估计每个像素的运动不确定性,从而实现动态对象的稳健过滤,无需依赖语义标签。这使得UP-SLAM能够在开放环境中处理未知的动态对象。

关键设计:概率八叉树的深度和分辨率是关键参数,影响着地图的精度和效率。不确定性估计器中,多模态残差的融合权重需要仔细调整,以平衡不同模态的信息。时间编码器的设计旨在捕捉时间一致性,提高渲染质量。DINO特征的提取和融合方式也需要进行优化,以提高不确定性预测的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UP-SLAM在多个具有挑战性的数据集上进行了评估,实验结果表明,UP-SLAM在定位精度(相对现有技术提升59.8%)和渲染质量(PSNR提升4.57 dB)方面均优于最先进的方法,同时保持了实时性能。此外,UP-SLAM能够生成可重用的、无伪影的静态地图,这对于后续的应用至关重要。

🎯 应用场景

UP-SLAM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它能够在动态环境中实现高精度定位和高质量地图重建,为机器人提供可靠的环境感知能力。此外,UP-SLAM生成的静态地图可以用于离线场景分析和规划,具有重要的实际价值。未来,该技术有望应用于更复杂的动态环境,例如人群密集的城市街道。

📄 摘要(原文)

Recent 3D Gaussian Splatting (3DGS) techniques for Visual Simultaneous Localization and Mapping (SLAM) have significantly progressed in tracking and high-fidelity mapping. However, their sequential optimization framework and sensitivity to dynamic objects limit real-time performance and robustness in real-world scenarios. We present UP-SLAM, a real-time RGB-D SLAM system for dynamic environments that decouples tracking and mapping through a parallelized framework. A probabilistic octree is employed to manage Gaussian primitives adaptively, enabling efficient initialization and pruning without hand-crafted thresholds. To robustly filter dynamic regions during tracking, we propose a training-free uncertainty estimator that fuses multi-modal residuals to estimate per-pixel motion uncertainty, achieving open-set dynamic object handling without reliance on semantic labels. Furthermore, a temporal encoder is designed to enhance rendering quality. Concurrently, low-dimensional features are efficiently transformed via a shallow multilayer perceptron to construct DINO features, which are then employed to enrich the Gaussian field and improve the robustness of uncertainty prediction. Extensive experiments on multiple challenging datasets suggest that UP-SLAM outperforms state-of-the-art methods in both localization accuracy (by 59.8%) and rendering quality (by 4.57 dB PSNR), while maintaining real-time performance and producing reusable, artifact-free static maps in dynamic environments.The project: https://aczheng-cai.github.io/up_slam.github.io/