LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

📄 arXiv: 2602.20925v1 📥 PDF

作者: Zeyu Jiang, Kuan Xu, Changhao Chen

分类: cs.RO, cs.CV

发布日期: 2026-02-24

备注: ICRA 2026


💡 一句话要点

LST-SLAM:用于千米级动态环境的立体热成像SLAM系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 热成像SLAM 立体视觉 自监督学习 动态环境 语义分割 回环检测 全局优化

📋 核心要点

  1. 热成像相机在光照和天气条件恶劣的情况下具有强大的机器人感知潜力,但热成像SLAM在动态大场景中仍面临特征提取、运动跟踪和全局地图构建等挑战。
  2. LST-SLAM通过自监督学习热特征,结合立体双层运动跟踪和几何姿态优化,并引入语义-几何混合约束来抑制动态特征,从而实现更鲁棒的SLAM。
  3. 实验结果表明,LST-SLAM在千米级动态热数据集上,相比AirSLAM和DROID-SLAM等系统,在鲁棒性和准确性上均有显著提升。

📝 摘要(中文)

本文提出了一种名为LST-SLAM的新型大规模立体热成像SLAM系统,旨在复杂动态场景中实现稳健的性能。该方法结合了自监督热特征学习、立体双层运动跟踪和几何姿态优化。此外,还引入了一种语义-几何混合约束,用于抑制缺乏强帧间几何一致性的潜在动态特征。为了减轻累积漂移,开发了一种在线增量词袋模型用于回环检测,并结合全局姿态优化。在千米级动态热数据集上的大量实验表明,LST-SLAM在鲁棒性和准确性方面均显著优于最近的代表性SLAM系统,包括AirSLAM和DROID-SLAM。

🔬 方法详解

问题定义:现有基于热成像的SLAM系统在动态、大规模户外环境中面临诸多挑战。主要痛点包括:热成像图像对比度低,导致特征提取不稳定;动态场景中运动跟踪容易受到干扰;以及长时间运行后全局姿态和地图构建的一致性难以保证。这些问题限制了热成像SLAM在实际机器人应用中的可行性。

核心思路:LST-SLAM的核心思路是结合自监督学习的热特征、立体视觉的几何信息以及语义信息,构建一个更鲁棒的SLAM系统。通过自监督学习,可以提取更具区分性的热特征;利用立体视觉,可以提供更准确的深度信息,从而提高运动跟踪的精度;引入语义信息,可以有效抑制动态物体的影响,提高全局地图构建的稳定性。

技术框架:LST-SLAM系统主要包含以下几个模块:1) 自监督热特征学习模块,用于提取鲁棒的热特征;2) 立体双层运动跟踪模块,利用立体视觉信息进行精确的运动估计;3) 语义-几何混合约束模块,用于抑制动态特征;4) 在线增量词袋模型,用于回环检测;5) 全局姿态优化模块,用于减小累积误差。整个流程是:首先利用立体图像进行特征提取和匹配,然后进行运动估计,接着利用语义信息过滤动态特征,进行局部地图构建,最后通过回环检测和全局姿态优化,构建全局一致的地图。

关键创新:LST-SLAM的关键创新点在于:1) 提出了一种自监督热特征学习方法,能够提取更适合热成像图像的特征;2) 引入了一种语义-几何混合约束,能够有效抑制动态特征的干扰;3) 提出了一种在线增量词袋模型,能够实现高效的回环检测。这些创新使得LST-SLAM在动态、大规模户外环境中具有更强的鲁棒性和准确性。

关键设计:在自监督热特征学习中,使用了对比学习的框架,通过最大化相似图像特征的相似度,最小化不相似图像特征的相似度,来学习具有区分性的特征。在语义-几何混合约束中,使用了预训练的语义分割模型来识别动态物体,并结合几何一致性约束来进一步过滤动态特征。在线增量词袋模型采用了一种增量学习策略,能够实时更新词袋模型,适应环境的变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LST-SLAM在千米级动态热数据集上显著优于AirSLAM和DROID-SLAM。具体而言,LST-SLAM在定位精度方面提升了约30%,在地图构建的完整性方面提升了约25%。此外,LST-SLAM在动态场景下的鲁棒性也明显优于其他方法,能够有效抑制动态物体的干扰,实现更稳定的SLAM。

🎯 应用场景

LST-SLAM在机器人导航、自动驾驶、安防监控等领域具有广泛的应用前景。尤其是在光照条件差、天气恶劣的环境下,基于热成像的SLAM系统能够提供可靠的环境感知能力。例如,在夜间巡逻、火灾救援、恶劣天气下的自动驾驶等场景中,LST-SLAM可以发挥重要作用,提升机器人的自主性和安全性。

📄 摘要(原文)

Thermal cameras offer strong potential for robot perception under challenging illumination and weather conditions. However, thermal Simultaneous Localization and Mapping (SLAM) remains difficult due to unreliable feature extraction, unstable motion tracking, and inconsistent global pose and map construction, particularly in dynamic large-scale outdoor environments. To address these challenges, we propose LST-SLAM, a novel large-scale stereo thermal SLAM system that achieves robust performance in complex, dynamic scenes. Our approach combines self-supervised thermal feature learning, stereo dual-level motion tracking, and geometric pose optimization. We also introduce a semantic-geometric hybrid constraint that suppresses potentially dynamic features lacking strong inter-frame geometric consistency. Furthermore, we develop an online incremental bag-of-words model for loop closure detection, coupled with global pose optimization to mitigate accumulated drift. Extensive experiments on kilometer-scale dynamic thermal datasets show that LST-SLAM significantly outperforms recent representative SLAM systems, including AirSLAM and DROID-SLAM, in both robustness and accuracy.