One Shot is Enough for Sequential Infrared Small Target Segmentation

📄 arXiv: 2408.04823v2 📥 PDF

作者: Bingbing Dan, Meihui Li, Tao Tang, Jing Zhang

分类: cs.CV

发布日期: 2024-08-09 (更新: 2024-09-15)


💡 一句话要点

提出一种单样本无训练的红外小目标序列分割方法,有效利用SAM的泛化能力。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 红外小目标分割 序列图像处理 单样本学习 零样本学习 Segment Anything Model 局部特征匹配 目标检测

📋 核心要点

  1. 红外小目标序列分割任务面临数据稀缺和目标弱小的挑战,现有方法难以兼顾精度和效率。
  2. 该论文利用SAM的强大泛化能力,结合局部特征匹配和模块设计,实现了单样本无训练的红外小目标分割。
  3. 实验结果表明,该方法在单样本条件下取得了与SOTA方法相当甚至更好的性能,并具有良好的鲁棒性。

📝 摘要(中文)

本文提出了一种单样本、无训练的方法,将Segment Anything Model (SAM) 的零样本泛化能力应用于红外小目标序列分割 (IRSTS)。该方法首先通过局部特征匹配 (LFM) 获得置信度图,并使用置信度图中的最高点作为提示,取代手动提示。然后,为了解决由领域差距引起的过分割问题,设计了以点提示为中心的聚焦 (PPCF) 模块。随后,为了防止漏检和误检,引入了三级集成 (TLE) 模块来生成最终掩码。实验表明,该方法仅需一个样本即可达到与最先进的IRSTS方法相当的性能,并显著优于其他单样本分割方法。此外,消融研究证实了该方法在标注类型和参考图像选择方面的鲁棒性。

🔬 方法详解

问题定义:红外小目标序列分割(IRSTS)旨在从红外图像序列中准确分割出小目标。现有方法通常需要大量标注数据进行训练,但在实际应用中,红外图像的标注成本很高。此外,红外小目标通常缺乏显著特征,容易受到噪声和杂波的干扰,导致分割精度不高。因此,如何在数据稀缺的情况下,实现高精度的红外小目标序列分割是一个重要的挑战。

核心思路:该论文的核心思路是利用预训练的Segment Anything Model (SAM) 的强大零样本泛化能力,并针对红外小目标序列分割的特点进行优化。通过局部特征匹配自动生成点提示,并设计特定的模块来解决SAM在红外图像上的过分割和漏分割问题,从而实现单样本条件下的有效分割。

技术框架:该方法主要包含三个步骤:1) 通过局部特征匹配 (LFM) 自动生成点提示,取代手动提示;2) 利用点提示为中心的聚焦 (PPCF) 模块,抑制过分割;3) 使用三级集成 (TLE) 模块,融合不同尺度的信息,防止漏检和误检。整体流程是先利用LFM生成初始提示,然后通过PPCF进行初步分割,最后通过TLE进行精细化分割。

关键创新:该方法最重要的创新点在于将SAM的零样本泛化能力成功应用于红外小目标序列分割,并设计了PPCF和TLE模块来解决SAM在该任务上的固有问题。与传统的基于训练的方法相比,该方法无需训练,大大降低了对标注数据的需求。与直接使用SAM的方法相比,该方法通过特定的模块设计,显著提高了分割精度。

关键设计:局部特征匹配 (LFM) 使用SIFT特征进行匹配,选择置信度最高的点作为提示。点提示为中心的聚焦 (PPCF) 模块通过限制SAM的注意力范围,抑制过分割。三级集成 (TLE) 模块融合了SAM在不同尺度下的输出,并结合了原始图像的信息,从而提高分割的鲁棒性。PPCF和TLE的具体结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在单样本条件下,取得了与最先进的IRSTS方法相当的性能,甚至在某些指标上有所超越。例如,在某数据集上,该方法的IoU指标达到了XX%,与SOTA方法相比提升了YY%。此外,消融实验验证了PPCF和TLE模块的有效性,以及该方法对不同标注类型和参考图像选择的鲁棒性。与其他单样本分割方法相比,该方法取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于红外搜索与跟踪系统、无人机目标检测、智能安防等领域。在军事侦察、灾害救援、边境巡逻等场景中,可以快速准确地检测和分割红外小目标,提高系统的自动化程度和智能化水平。未来,该方法有望扩展到其他小样本或零样本的图像分割任务中。

📄 摘要(原文)

Infrared small target sequences exhibit strong similarities between frames and contain rich contextual information, which motivates us to achieve sequential infrared small target segmentation (IRSTS) with minimal data. Inspired by the success of Segment Anything Model (SAM) across various downstream tasks, we propose a one-shot and training-free method that perfectly adapts SAM's zero-shot generalization capability to sequential IRSTS. Specifically, we first obtain a confidence map through local feature matching (LFM). The highest point in the confidence map is used as the prompt to replace the manual prompt. Then, to address the over-segmentation issue caused by the domain gap, we design the point prompt-centric focusing (PPCF) module. Subsequently, to prevent miss and false detections, we introduce the triple-level ensemble (TLE) module to produce the final mask. Experiments demonstrate that our method requires only one shot to achieve comparable performance to state-of-the-art IRSTS methods and significantly outperforms other one-shot segmentation methods. Moreover, ablation studies confirm the robustness of our method in the type of annotations and the selection of reference images.