VAR-SLAM: Visual Adaptive and Robust SLAM for Dynamic Environments

📄 arXiv: 2510.16205v1 📥 PDF

作者: João Carlos Virgolino Soares, Gabriel Fischer Abati, Claudio Semini

分类: cs.RO

发布日期: 2025-10-17

备注: Code available at https://github.com/iit-DLSLab/VAR-SLAM


💡 一句话要点

VAR-SLAM:面向动态环境的视觉自适应鲁棒SLAM系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉SLAM 动态环境 鲁棒性 自适应损失函数 语义分割 ORB-SLAM3 机器人导航

📋 核心要点

  1. 现有视觉SLAM方法在动态环境中表现不佳,主要因为它们依赖于对已知物体的语义过滤或使用固定的鲁棒核函数。
  2. VAR-SLAM的核心思想是结合语义关键点过滤处理已知移动物体,并利用自适应鲁棒损失函数处理未知移动物体,从而提升系统在动态环境下的鲁棒性。
  3. 实验结果表明,VAR-SLAM在多个数据集上优于现有方法,尤其是在具有挑战性的动态场景中,显著降低了轨迹误差,并保持了较高的运行速度。

📝 摘要(中文)

本文提出VAR-SLAM(Visual Adaptive and Robust SLAM),一个基于ORB-SLAM3的系统,旨在解决动态环境中视觉SLAM的挑战。现有方法依赖于语义过滤,但仅能处理已知的对象类别;或者使用固定的鲁棒核函数,无法适应未知的移动对象,导致精度下降。VAR-SLAM结合了轻量级的语义关键点滤波器来处理已知的移动对象,并采用Barron自适应鲁棒损失函数来处理未知的移动对象。鲁棒核函数的形状参数根据残差在线估计,使系统能够自动调整为高斯或重尾分布。在TUM RGB-D、Bonn RGB-D Dynamic和OpenLORIS数据集上的评估结果表明,与最先进的基线方法相比,VAR-SLAM在轨迹精度和鲁棒性方面均有所提高,在具有挑战性的序列上,ATE RMSE比NGD-SLAM降低高达25%,同时保持平均27 FPS的性能。

🔬 方法详解

问题定义:动态环境下的视觉SLAM面临的主要问题是如何处理场景中移动的物体,这些物体会引入噪声和错误关联,导致SLAM系统的定位和建图精度下降。现有的方法要么依赖于预定义的语义信息来过滤已知的移动物体,要么使用固定的鲁棒核函数来抑制异常值的影响。然而,前者无法处理未知的移动物体,后者则缺乏对不同场景的适应性。

核心思路:VAR-SLAM的核心思路是结合语义信息和自适应鲁棒损失函数,分别处理已知和未知的移动物体。对于已知的移动物体,使用轻量级的语义分割网络来过滤掉其关键点,避免其对SLAM过程产生干扰。对于未知的移动物体,则采用Barron自适应鲁棒损失函数,该函数能够根据残差的大小自动调整鲁棒核的形状参数,从而在不同的场景下实现最佳的异常值抑制效果。

技术框架:VAR-SLAM基于ORB-SLAM3框架,主要包含以下几个模块:1) 特征提取与匹配:使用ORB特征进行图像特征提取和匹配;2) 语义分割:使用轻量级的语义分割网络对图像进行分割,识别已知的移动物体;3) 关键点过滤:根据语义分割结果,过滤掉已知移动物体的关键点;4) 位姿估计与优化:使用自适应鲁棒损失函数进行位姿估计和优化,抑制未知移动物体的影响;5) 地图构建与维护:构建和维护场景地图。

关键创新:VAR-SLAM的关键创新在于引入了自适应鲁棒损失函数,该函数能够根据残差的大小自动调整鲁棒核的形状参数。传统的鲁棒核函数通常使用固定的形状参数,无法适应不同场景下的异常值分布。而Barron自适应鲁棒损失函数能够根据残差的分布情况,自动调整为高斯或重尾分布,从而实现更好的异常值抑制效果。

关键设计:VAR-SLAM的关键设计包括:1) 轻量级的语义分割网络:为了保证系统的实时性,VAR-SLAM使用了一个轻量级的语义分割网络,该网络能够在保证分割精度的前提下,实现较高的运行速度;2) Barron自适应鲁棒损失函数:该函数使用一个形状参数来控制鲁棒核的形状,该参数根据残差的大小在线估计,从而实现自适应的异常值抑制效果;3) 关键点过滤策略:根据语义分割结果,过滤掉已知移动物体的关键点,避免其对SLAM过程产生干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VAR-SLAM在TUM RGB-D、Bonn RGB-D Dynamic和OpenLORIS数据集上进行了评估,结果表明其在轨迹精度和鲁棒性方面均优于现有方法。在具有挑战性的序列上,VAR-SLAM的ATE RMSE比NGD-SLAM降低高达25%。此外,VAR-SLAM还保持了较高的运行速度,平均帧率为27 FPS,表明其具有良好的实时性。

🎯 应用场景

VAR-SLAM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。该系统能够有效地处理动态环境中的移动物体,提高SLAM系统的定位和建图精度,从而为机器人提供更可靠的环境感知能力。例如,在自动驾驶场景中,VAR-SLAM可以帮助车辆准确地识别和跟踪周围的车辆和行人,从而提高驾驶安全性。在增强现实场景中,VAR-SLAM可以帮助用户在动态环境中实现更稳定的虚拟物体叠加。

📄 摘要(原文)

Visual SLAM in dynamic environments remains challenging, as several existing methods rely on semantic filtering that only handles known object classes, or use fixed robust kernels that cannot adapt to unknown moving objects, leading to degraded accuracy when they appear in the scene. We present VAR-SLAM (Visual Adaptive and Robust SLAM), an ORB-SLAM3-based system that combines a lightweight semantic keypoint filter to deal with known moving objects, with Barron's adaptive robust loss to handle unknown ones. The shape parameter of the robust kernel is estimated online from residuals, allowing the system to automatically adjust between Gaussian and heavy-tailed behavior. We evaluate VAR-SLAM on the TUM RGB-D, Bonn RGB-D Dynamic, and OpenLORIS datasets, which include both known and unknown moving objects. Results show improved trajectory accuracy and robustness over state-of-the-art baselines, achieving up to 25% lower ATE RMSE than NGD-SLAM on challenging sequences, while maintaining performance at 27 FPS on average.