Panoptic-SLAM: Visual SLAM in Dynamic Environments using Panoptic Segmentation

📄 arXiv: 2405.02177v1 📥 PDF

作者: Gabriel Fischer Abati, João Carlos Virgolino Soares, Vivian Suzano Medeiros, Marco Antonio Meggiolaro, Claudio Semini

分类: cs.RO

发布日期: 2024-05-03


💡 一句话要点

Panoptic-SLAM:利用全景分割实现动态环境下鲁棒的视觉SLAM

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉SLAM 动态环境 全景分割 机器人导航 ORB-SLAM3

📋 核心要点

  1. 现有视觉SLAM系统在动态环境中鲁棒性差,且依赖深度学习的方法难以处理未知移动物体。
  2. Panoptic-SLAM利用全景分割过滤动态物体,提升了SLAM系统在动态环境下的鲁棒性,即使面对未知物体。
  3. 实验表明,Panoptic-SLAM在真实数据集上优于现有方法,并在四足机器人平台上验证了其可行性。

📝 摘要(中文)

大多数视觉SLAM系统在动态场景中不够鲁棒。处理动态物体的系统通常依赖于基于深度学习的方法来检测和过滤这些物体,但这些方法无法处理未知的移动物体。本文提出了Panoptic-SLAM,一个开源的视觉SLAM系统,对动态环境具有鲁棒性,即使存在未知物体。它使用全景分割在状态估计过程中过滤掉场景中的动态物体。Panoptic-SLAM基于ORB-SLAM3,一个用于静态环境的先进SLAM系统。该实现使用真实世界数据集进行了测试,并与文献中的几种先进系统进行了比较,包括DynaSLAM、DS-SLAM、SaD-SLAM、PVO和FusingPanoptic。例如,Panoptic-SLAM的准确率平均是PVO(最新的基于全景分割的视觉SLAM方法)的四倍。此外,还使用配备RGB-D相机的四足机器人进行了实验,以测试该方法在真实场景中的适用性。这些测试通过使用运动捕捉系统创建的ground-truth进行了验证。

🔬 方法详解

问题定义:现有视觉SLAM系统在动态环境中表现不佳,特别是当场景中存在未知移动物体时。基于深度学习的动态物体检测方法虽然可以过滤掉一部分动态物体,但泛化能力有限,无法处理未知的动态物体,导致SLAM精度下降甚至失效。

核心思路:Panoptic-SLAM的核心思路是利用全景分割技术将场景分割成静态环境(things)和动态物体(stuff),并在状态估计过程中过滤掉动态物体的信息。通过只使用静态环境的信息进行定位和建图,从而提高SLAM系统在动态环境下的鲁棒性。

技术框架:Panoptic-SLAM基于ORB-SLAM3构建,主要包含以下模块:1) 图像采集;2) 全景分割:使用预训练的全景分割模型对图像进行分割,区分静态环境和动态物体;3) 特征提取与匹配:提取ORB特征,并进行特征匹配;4) 动态物体过滤:根据全景分割的结果,过滤掉动态物体上的特征点;5) 状态估计:使用剩余的静态特征点进行相机位姿估计和地图构建;6) 回环检测与优化:进行回环检测,并使用全局优化算法优化地图。

关键创新:Panoptic-SLAM的关键创新在于将全景分割技术引入到视觉SLAM系统中,用于动态物体的过滤。与传统的基于深度学习的动态物体检测方法相比,全景分割能够更全面地识别和分割场景中的动态物体,包括未知的移动物体,从而提高了SLAM系统在复杂动态环境下的鲁棒性。

关键设计:Panoptic-SLAM的关键设计包括:1) 选择合适的预训练全景分割模型,以保证分割的准确性和效率;2) 设计有效的特征点过滤策略,避免将动态物体上的特征点用于状态估计;3) 优化状态估计过程,以适应动态环境下的数据噪声和不确定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Panoptic-SLAM在真实数据集上进行了广泛的实验,并与DynaSLAM、DS-SLAM、SaD-SLAM、PVO和FusingPanoptic等先进系统进行了比较。实验结果表明,Panoptic-SLAM的精度显著优于其他方法,例如,其平均精度是PVO的四倍。此外,Panoptic-SLAM还在配备RGB-D相机的四足机器人平台上进行了验证,证明了其在真实场景中的可行性。

🎯 应用场景

Panoptic-SLAM可应用于机器人导航、自动驾驶、增强现实等领域。在这些场景中,动态环境是普遍存在的挑战。Panoptic-SLAM能够提高机器人在复杂动态环境下的定位和建图精度,使其能够更好地理解周围环境并做出相应的决策。未来,该技术有望应用于更广泛的机器人应用场景,例如服务机器人、物流机器人等。

📄 摘要(原文)

The majority of visual SLAM systems are not robust in dynamic scenarios. The ones that deal with dynamic objects in the scenes usually rely on deep-learning-based methods to detect and filter these objects. However, these methods cannot deal with unknown moving objects. This work presents Panoptic-SLAM, an open-source visual SLAM system robust to dynamic environments, even in the presence of unknown objects. It uses panoptic segmentation to filter dynamic objects from the scene during the state estimation process. Panoptic-SLAM is based on ORB-SLAM3, a state-of-the-art SLAM system for static environments. The implementation was tested using real-world datasets and compared with several state-of-the-art systems from the literature, including DynaSLAM, DS-SLAM, SaD-SLAM, PVO and FusingPanoptic. For example, Panoptic-SLAM is on average four times more accurate than PVO, the most recent panoptic-based approach for visual SLAM. Also, experiments were performed using a quadruped robot with an RGB-D camera to test the applicability of our method in real-world scenarios. The tests were validated by a ground-truth created with a motion capture system.