SMMT: Siamese Motion Mamba with Self-attention for Thermal Infrared Target Tracking

📄 arXiv: 2505.04088v3 📥 PDF

作者: Shang Zhang, Huanbin Zhang, Dali Feng, Yujie Cui, Ruoyan Xiong, Cen He

分类: cs.CV

发布日期: 2025-05-07 (更新: 2025-06-11)


💡 一句话要点

提出SMMT:Siamese架构融合Motion Mamba与自注意力,提升热红外目标跟踪性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 热红外目标跟踪 Siamese网络 状态空间模型 Mamba 自注意力 运动特征提取 运动模糊

📋 核心要点

  1. 热红外目标跟踪易受遮挡、运动模糊和背景干扰,传统跟踪器性能显著下降。
  2. SMMT融合Motion Mamba和自注意力,利用双向建模提取运动特征,恢复边缘细节。
  3. 实验表明,SMMT在多个热红外数据集上超越现有方法,显著提升跟踪精度。

📝 摘要(中文)

本文提出了一种新颖的Siamese Motion Mamba Tracker (SMMT),用于解决热红外(TIR)目标跟踪中目标遮挡、运动模糊和背景杂波等挑战。SMMT集成了双向状态空间模型和自注意力机制。具体而言,我们将Motion Mamba模块引入Siamese架构,利用双向建模和自注意力提取运动特征并恢复被忽略的边缘细节。我们提出了一种Siamese参数共享策略,允许某些卷积层共享权重,从而减少计算冗余,同时保持强大的特征表示能力。此外,我们设计了一种运动边缘感知回归损失,以提高跟踪精度,特别是对于运动模糊的目标。在LSOTB-TIR、PTB-TIR、VOT-TIR2015和VOT-TIR 2017四个TIR跟踪基准上进行了大量实验,结果表明SMMT在TIR目标跟踪中取得了优异的性能。

🔬 方法详解

问题定义:热红外目标跟踪面临目标遮挡、运动模糊和复杂背景等挑战,导致传统跟踪器性能下降。现有方法难以有效提取运动特征,且对运动模糊目标的边缘细节恢复不足,影响跟踪精度。

核心思路:论文的核心思路是将状态空间模型(SSM)中的Mamba架构与Siamese网络结合,利用Mamba擅长处理序列数据的特性来建模目标运动,并结合自注意力机制增强特征表达能力,从而提升对运动模糊目标的跟踪性能。同时,通过参数共享策略减少计算量。

技术框架:SMMT采用Siamese架构,包含两个分支:模板分支和搜索分支。首先,使用卷积神经网络提取模板图像和搜索图像的特征。然后,将提取的特征输入Motion Mamba模块,该模块包含双向状态空间模型和自注意力机制,用于提取运动特征并恢复边缘细节。最后,使用运动边缘感知回归损失进行训练,预测目标的位置。

关键创新:主要创新点在于将Mamba架构引入Siamese跟踪器,并设计了Motion Mamba模块。与传统卷积神经网络相比,Mamba能够更好地建模目标运动,并具有更强的长距离依赖建模能力。此外,运动边缘感知回归损失能够有效提高对运动模糊目标的跟踪精度。

关键设计:Motion Mamba模块包含双向状态空间模型,分别从前向和后向建模目标运动。自注意力机制用于增强特征表达能力。Siamese网络的部分卷积层采用参数共享策略,减少计算量。运动边缘感知回归损失结合了IoU损失和边缘损失,能够更准确地预测目标位置,特别是对于运动模糊目标。

📊 实验亮点

SMMT在LSOTB-TIR、PTB-TIR、VOT-TIR2015和VOT-TIR2017四个热红外目标跟踪基准上进行了广泛的实验,结果表明SMMT取得了显著的性能提升,超越了现有的主流跟踪器。具体性能数据未知,但摘要强调了其优越性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、无人机等领域,尤其是在光照条件不佳或存在烟雾、遮挡等干扰因素的环境下,热红外目标跟踪技术具有重要的应用价值。SMMT的提出有望提升这些应用场景下的目标跟踪精度和鲁棒性,提高系统的智能化水平。

📄 摘要(原文)

Thermal infrared (TIR) object tracking often suffers from challenges such as target occlusion, motion blur, and background clutter, which significantly degrade the performance of trackers. To address these issues, this paper pro-poses a novel Siamese Motion Mamba Tracker (SMMT), which integrates a bidirectional state-space model and a self-attention mechanism. Specifically, we introduce the Motion Mamba module into the Siamese architecture to ex-tract motion features and recover overlooked edge details using bidirectional modeling and self-attention. We propose a Siamese parameter-sharing strate-gy that allows certain convolutional layers to share weights. This approach reduces computational redundancy while preserving strong feature represen-tation. In addition, we design a motion edge-aware regression loss to improve tracking accuracy, especially for motion-blurred targets. Extensive experi-ments are conducted on four TIR tracking benchmarks, including LSOTB-TIR, PTB-TIR, VOT-TIR2015, and VOT-TIR 2017. The results show that SMMT achieves superior performance in TIR target tracking.