MambaNUT: Nighttime UAV Tracking via Mamba-based Adaptive Curriculum Learning

📄 arXiv: 2412.00626v3 📥 PDF

作者: You Wu, Xiangyang Yang, Xucheng Wang, Hengzhou Ye, Dan Zeng, Shuiwang Li

分类: cs.CV

发布日期: 2024-12-01 (更新: 2025-05-10)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于Mamba的自适应课程学习框架MambaNUT,用于夜间无人机跟踪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 夜间无人机跟踪 Mamba 状态空间模型 自适应课程学习 低光照 目标跟踪 单流架构 视觉Transformer

📋 核心要点

  1. 现有夜间无人机跟踪方法过度依赖图像增强,缺乏高质量夜间数据,且日间/夜间跟踪器缺乏有效集成。
  2. MambaNUT采用基于Mamba的状态空间模型作为骨干,结合单流架构和自适应课程学习,实现高效夜间跟踪。
  3. 实验表明,MambaNUT在多个夜间无人机跟踪基准上取得了SOTA性能,并降低了计算成本。

📝 摘要(中文)

夜间无人机跟踪受益于低光照增强和领域自适应技术,但过度依赖图像增强、高质量夜间数据匮乏以及日间/夜间跟踪器缺乏集成阻碍了端到端可训练框架的发展。此外,当前基于ViT的跟踪器由于自注意力机制需要大量计算资源。本文提出了一种新型的纯Mamba跟踪框架(MambaNUT),它采用具有线性复杂度的状态空间模型作为骨干网络,并结合了在Vision Mamba中集成特征学习和模板搜索的单流架构。我们引入了一种自适应课程学习(ACL)方法,动态调整采样策略和损失权重,从而提高模型的泛化能力。ACL由两个级别的课程调度器组成:(1)采样调度器,将数据分布从不平衡转换为平衡,以及从简单(白天)到困难(夜间)样本;(2)损失调度器,根据训练集的大小和单个实例的IoU动态分配权重。在多个夜间无人机跟踪基准上的大量实验表明,所提出的MambaNUT实现了最先进的性能,同时降低了计算成本。

🔬 方法详解

问题定义:夜间无人机跟踪面临的挑战包括光照条件差、图像质量低、缺乏高质量的训练数据,以及现有方法对图像增强的过度依赖。此外,基于ViT的跟踪器计算复杂度高,难以满足实时性需求。因此,需要一种高效且鲁棒的夜间无人机跟踪框架。

核心思路:MambaNUT的核心思路是利用Mamba架构的高效性和线性复杂度,构建一个端到端可训练的跟踪框架。通过自适应课程学习,逐步提升模型在夜间场景下的泛化能力,克服数据不平衡和样本难度差异带来的影响。

技术框架:MambaNUT采用单流架构,将特征学习和模板搜索集成在Vision Mamba中。整体流程包括:输入图像对(模板和搜索区域),通过Vision Mamba提取特征,然后进行相关性计算和目标定位。自适应课程学习模块动态调整采样策略和损失权重,优化训练过程。

关键创新:MambaNUT的关键创新在于:1) 采用纯Mamba架构作为跟踪器的骨干网络,降低了计算复杂度;2) 提出了自适应课程学习(ACL)方法,动态调整采样策略和损失权重,提高了模型的泛化能力。ACL包含采样调度器和损失调度器,分别控制数据分布和损失权重。

关键设计:采样调度器根据样本的难易程度(白天/夜间)和数据平衡程度动态调整采样概率。损失调度器根据训练集大小和IoU值动态分配损失权重,使得模型更加关注难样本和IoU较低的样本。具体参数设置和网络结构细节在论文中进行了详细描述(具体数值未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaNUT在多个夜间无人机跟踪基准上取得了state-of-the-art的性能,同时降低了计算成本。具体的性能提升数据和对比基线在论文中进行了详细展示(具体数值未知)。该结果表明,Mamba架构和自适应课程学习在夜间无人机跟踪任务中具有显著优势。

🎯 应用场景

MambaNUT可应用于夜间安防监控、夜间搜救、夜间巡检等领域。该研究成果有助于提升无人机在复杂光照条件下的目标跟踪能力,具有重要的实际应用价值。未来,该方法可以进一步扩展到其他低光照场景的目标跟踪任务中。

📄 摘要(原文)

Harnessing low-light enhancement and domain adaptation, nighttime UAV tracking has made substantial strides. However, over-reliance on image enhancement, limited high-quality nighttime data, and a lack of integration between daytime and nighttime trackers hinder the development of an end-to-end trainable framework. Additionally, current ViT-based trackers demand heavy computational resources due to their reliance on the self-attention mechanism. In this paper, we propose a novel pure Mamba-based tracking framework (MambaNUT) that employs a state space model with linear complexity as its backbone, incorporating a single-stream architecture that integrates feature learning and template-search coupling within Vision Mamba. We introduce an adaptive curriculum learning (ACL) approach that dynamically adjusts sampling strategies and loss weights, thereby improving the model's ability of generalization. Our ACL is composed of two levels of curriculum schedulers: (1) sampling scheduler that transforms the data distribution from imbalanced to balanced, as well as from easier (daytime) to harder (nighttime) samples; (2) loss scheduler that dynamically assigns weights based on the size of the training set and IoU of individual instances. Exhaustive experiments on multiple nighttime UAV tracking benchmarks demonstrate that the proposed MambaNUT achieves state-of-the-art performance while requiring lower computational costs. The code will be available at https://github.com/wuyou3474/MambaNUT.