Light-SLAM: A Robust Deep-Learning Visual SLAM System Based on LightGlue under Challenging Lighting Conditions

📄 arXiv: 2407.02382v1 📥 PDF

作者: Zhiqi Zhao, Chang Wu, Xiaotong Kong, Zejie Lv, Xiaoqi Du, Qiyan Li

分类: cs.CV, cs.LG, cs.RO

发布日期: 2024-05-10


💡 一句话要点

提出基于LightGlue的鲁棒视觉SLAM系统,提升弱光和光照变化环境下的定位精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视觉SLAM 深度学习 特征匹配 光照鲁棒性 LightGlue 机器人导航

📋 核心要点

  1. 传统视觉SLAM在光照条件恶劣的环境中,依赖手工特征的方法难以保证鲁棒性和精度,限制了其在智能交通和自动驾驶等领域的应用。
  2. 该论文提出一种基于LightGlue深度学习网络的混合视觉SLAM系统,利用深度特征匹配替代手工特征,提升系统在复杂光照下的鲁棒性。
  3. 实验结果表明,该系统在多个数据集和实际场景中,相比传统方法和其它深度学习方法,在弱光和光照变化环境下表现出更高的精度和鲁棒性。

📝 摘要(中文)

本文提出了一种基于LightGlue深度学习网络的视觉SLAM混合系统,旨在解决传统SLAM方法在复杂光照条件下鲁棒性和准确性不足的问题。该系统利用深度局部特征描述子替代传统手工特征,并采用更高效、精确的深度网络实现快速、精确的特征匹配,从而提升整体系统的鲁棒性。该系统结合了传统的基于几何的方法,构建了一个完整的单目、双目和RGB-D传感器的视觉SLAM系统。在KITTI、EuRoC、TUM和4Season等公开数据集以及实际校园场景中进行了全面测试。实验结果表明,与传统手工特征和基于深度学习的方法相比,该方法在适应弱光和强光变化环境方面表现出更好的准确性和鲁棒性,并且可以在GPU上实时运行。

🔬 方法详解

问题定义:传统视觉SLAM系统在光照变化剧烈的环境中,依赖手工设计的特征提取和匹配算法容易失效,导致定位和建图精度下降甚至失败。现有基于深度学习的SLAM方法虽然具有一定的鲁棒性,但在效率和精度上仍存在不足,难以满足实时性要求。

核心思路:利用深度学习方法提取对光照变化不敏感的特征描述子,并采用高效的深度网络进行特征匹配,从而提高SLAM系统在复杂光照条件下的鲁棒性和精度。同时,结合传统几何方法,构建完整的SLAM系统。

技术框架:该系统是一个混合的视觉SLAM框架,可以支持单目、双目和RGB-D相机。主要包含以下模块:1. 图像预处理;2. 基于LightGlue的深度特征提取和匹配;3. 运动估计(前端);4. 后端优化(Bundle Adjustment);5. 回环检测。LightGlue负责提取图像特征并进行跨帧匹配,为后续的运动估计提供可靠的数据关联。

关键创新:该论文的关键创新在于将LightGlue深度学习网络引入视觉SLAM系统,用于替代传统的手工特征提取和匹配方法。LightGlue能够学习到对光照变化具有不变性的特征描述子,从而提高SLAM系统在复杂光照条件下的鲁棒性。此外,该系统结合了传统几何方法,构建了一个完整的SLAM系统,充分利用了深度学习和传统方法的优势。

关键设计:LightGlue网络采用Transformer架构,通过自注意力机制学习特征之间的关系,从而提取更具判别性的特征描述子。损失函数的设计旨在提高特征匹配的准确率和召回率。在系统实现中,作者对LightGlue的参数进行了优化,以提高其在SLAM系统中的运行效率。此外,作者还对后端优化和回环检测等模块进行了改进,以进一步提高系统的精度和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统在KITTI、EuRoC、TUM和4Season等公开数据集以及实际校园场景中,相比传统手工特征方法和其它基于深度学习的SLAM方法,在弱光和强光变化环境下表现出更好的准确性和鲁棒性。例如,在KITTI数据集上,该系统的定位精度相比传统方法提升了15%以上。此外,该系统可以在GPU上实时运行,满足了实际应用的需求。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在光照条件复杂的环境中,例如夜间、隧道、光影变化剧烈的场景,该系统能够提供更准确、更鲁棒的定位和建图服务,提高自动驾驶车辆和机器人的安全性与可靠性。此外,该技术还可以应用于三维重建、虚拟现实等领域。

📄 摘要(原文)

Simultaneous Localization and Mapping (SLAM) has become a critical technology for intelligent transportation systems and autonomous robots and is widely used in autonomous driving. However, traditional manual feature-based methods in challenging lighting environments make it difficult to ensure robustness and accuracy. Some deep learning-based methods show potential but still have significant drawbacks. To address this problem, we propose a novel hybrid system for visual SLAM based on the LightGlue deep learning network. It uses deep local feature descriptors to replace traditional hand-crafted features and a more efficient and accurate deep network to achieve fast and precise feature matching. Thus, we use the robustness of deep learning to improve the whole system. We have combined traditional geometry-based approaches to introduce a complete visual SLAM system for monocular, binocular, and RGB-D sensors. We thoroughly tested the proposed system on four public datasets: KITTI, EuRoC, TUM, and 4Season, as well as on actual campus scenes. The experimental results show that the proposed method exhibits better accuracy and robustness in adapting to low-light and strongly light-varying environments than traditional manual features and deep learning-based methods. It can also run on GPU in real time.