Weakly-supervised Contrastive Learning with Quantity Prompts for Moving Infrared Small Target Detection
作者: Weiwei Duan, Luping Ji, Shengjia Chen, Sicheng Zhu, Jianghong Huang, Mao Ye
分类: cs.CV
发布日期: 2025-07-03
💡 一句话要点
提出基于数量提示的弱监督对比学习方法,用于移动红外小目标检测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 红外小目标检测 弱监督学习 对比学习 数量提示 运动感知学习
📋 核心要点
- 现有红外小目标检测方法依赖大量人工标注,成本高昂,限制了其在实际场景中的应用。
- 提出一种基于数量提示的弱监督对比学习框架,利用预训练SAM和对比学习提升伪标签质量。
- 实验表明,该方法在两个数据集上优于早期全监督方法,性能接近SOTA全监督方法的90%。
📝 摘要(中文)
与通用目标检测不同,移动红外小目标检测由于目标尺寸小、背景对比度弱而面临巨大挑战。目前,大多数现有方法都是全监督的,严重依赖大量人工标注。然而,手动标注视频序列通常既昂贵又耗时,特别是对于低质量的红外帧图像。受通用目标检测的启发,非全监督策略(例如,弱监督)被认为有潜力减少标注需求。为了突破传统的全监督框架,作为首次探索性工作,本文提出了一种新的弱监督对比学习(WeCoL)方案,仅需要在模型训练期间提供简单的目标数量提示。具体来说,在我们的方案中,基于预训练的分割一切模型(SAM),设计了一种潜在目标挖掘策略,以整合目标激活图和多帧能量累积。此外,采用对比学习通过计算特征子空间中正负样本之间的相似性,进一步提高伪标签的可靠性。此外,我们提出了一种长短期运动感知学习方案,以同时建模小目标的局部运动模式和全局运动轨迹。在两个公共数据集(DAUB和ITSDT-15K)上的大量实验验证了我们的弱监督方案通常可以优于早期的全监督方法。甚至,其性能可以达到最先进(SOTA)全监督方法的90%以上。
🔬 方法详解
问题定义:移动红外小目标检测任务旨在从红外图像序列中检测出移动的小目标。现有方法主要依赖全监督学习,需要对每一帧图像中的目标进行精确标注,这在实际应用中非常耗时且成本高昂。尤其是在低质量红外图像中,人工标注的难度更大,容易引入误差。因此,如何降低对人工标注的依赖,成为该领域的一个重要挑战。
核心思路:本文的核心思路是利用弱监督学习,仅需提供目标数量提示,即可训练出高性能的检测模型。具体而言,利用预训练的分割一切模型(SAM)生成候选目标区域,并通过对比学习来区分正负样本,从而提高伪标签的质量。此外,还引入了长短期运动感知学习,以更好地建模目标的运动信息。
技术框架:该方法主要包含以下几个模块:1) 潜在目标挖掘:基于预训练的SAM,结合目标激活图和多帧能量累积,生成候选目标区域。2) 对比学习:通过计算特征子空间中正负样本之间的相似性,提高伪标签的可靠性。3) 长短期运动感知学习:同时建模小目标的局部运动模式和全局运动轨迹。整个流程是,首先利用数量提示和SAM生成伪标签,然后通过对比学习优化特征表示,最后利用运动感知学习提高检测精度。
关键创新:该方法的主要创新点在于:1) 首次将弱监督学习引入到移动红外小目标检测领域,降低了对人工标注的依赖。2) 提出了一种基于数量提示的弱监督学习框架,仅需提供目标数量信息即可进行训练。3) 结合预训练SAM和对比学习,有效提高了伪标签的质量。4) 引入长短期运动感知学习,更好地建模目标的运动信息。
关键设计:在潜在目标挖掘阶段,使用了SAM的分割结果作为候选区域,并通过目标激活图和多帧能量累积来过滤噪声。在对比学习阶段,设计了合适的正负样本选择策略,并采用了InfoNCE损失函数。在长短期运动感知学习阶段,使用了LSTM网络来建模目标的运动轨迹,并设计了相应的损失函数。
🖼️ 关键图片
📊 实验亮点
在DAUB和ITSDT-15K两个公共数据集上的实验结果表明,该弱监督方法能够超越早期的全监督方法,并且性能可以达到SOTA全监督方法的90%以上。这表明该方法在降低标注成本的同时,仍然能够保持较高的检测精度,具有很强的实用价值。
🎯 应用场景
该研究成果可广泛应用于安防监控、无人机巡检、智能交通等领域。通过降低对人工标注的依赖,可以大大降低模型训练的成本,提高红外小目标检测系统的实用性和可扩展性。未来,该方法有望应用于更复杂的场景,例如恶劣天气条件下的目标检测。
📄 摘要(原文)
Different from general object detection, moving infrared small target detection faces huge challenges due to tiny target size and weak background contrast.Currently, most existing methods are fully-supervised, heavily relying on a large number of manual target-wise annotations. However, manually annotating video sequences is often expensive and time-consuming, especially for low-quality infrared frame images. Inspired by general object detection, non-fully supervised strategies ($e.g.$, weakly supervised) are believed to be potential in reducing annotation requirements. To break through traditional fully-supervised frameworks, as the first exploration work, this paper proposes a new weakly-supervised contrastive learning (WeCoL) scheme, only requires simple target quantity prompts during model training.Specifically, in our scheme, based on the pretrained segment anything model (SAM), a potential target mining strategy is designed to integrate target activation maps and multi-frame energy accumulation.Besides, contrastive learning is adopted to further improve the reliability of pseudo-labels, by calculating the similarity between positive and negative samples in feature subspace.Moreover, we propose a long-short term motion-aware learning scheme to simultaneously model the local motion patterns and global motion trajectory of small targets.The extensive experiments on two public datasets (DAUB and ITSDT-15K) verify that our weakly-supervised scheme could often outperform early fully-supervised methods. Even, its performance could reach over 90\% of state-of-the-art (SOTA) fully-supervised ones.