Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm

📄 arXiv: 2512.05511v1 📥 PDF

作者: Chuang Yu, Jinmiao Zhao, Yunpeng Liu, Yaokun Li, Xiujun Shu, Yuanhao Feng, Bo Wang, Yimian Dai, Xiangyu Yue

分类: cs.CV

发布日期: 2025-12-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于视觉基础模型的红外小目标检测高效框架,显著提升检测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 红外小目标检测 视觉基础模型 语义对齐 隐式自蒸馏 知识迁移 目标检测 深度学习

📋 核心要点

  1. 现有红外小目标检测方法缺乏利用大规模视觉先验知识的能力,限制了检测性能。
  2. 提出FDEP框架,利用视觉基础模型的冻结特征,通过语义对齐和隐式自蒸馏提升检测精度,同时保持效率。
  3. 实验表明,FDEP框架在多个数据集上取得了SOTA性能,验证了其有效性和泛化能力。

📝 摘要(中文)

本文首次探索了大规模视觉基础模型(VFMs)在单帧红外小目标(SIRST)检测中的潜力。为此,我们系统地将VFMs的冻结表示引入SIRST任务,并提出了一个基础驱动的高效范式(FDEP),该范式可以无缝地适应现有的基于编码器-解码器的方法,并在不增加额外推理开销的情况下显著提高精度。具体来说,我们设计了一个语义对齐调制融合(SAMF)模块,以实现来自VFMs的全局语义先验与特定任务特征的动态对齐和深度融合。同时,为了避免VFMs引入的推理时间负担,我们提出了一种基于协同优化的隐式自蒸馏(CO-ISD)策略,该策略通过参数共享和同步反向传播,实现主分支和轻量级分支之间的隐式语义传递。此外,为了统一碎片化的评估系统,我们构建了一个整体SIRST评估(HSE)指标,该指标在像素级置信度和目标级鲁棒性上执行多阈值积分评估,为公平的模型比较提供了一个稳定而全面的基础。大量实验表明,配备我们FDEP框架的SIRST检测网络在多个公共数据集上实现了最先进(SOTA)的性能。

🔬 方法详解

问题定义:红外小目标检测(SIRST)旨在从复杂的红外图像背景中检测出微小的目标。现有方法通常依赖于手工特征或浅层神经网络,难以充分利用图像的全局语义信息,并且泛化能力有限。此外,直接将大型视觉模型应用于SIRST任务会引入巨大的计算开销,影响实时性。

核心思路:本文的核心思路是利用大规模视觉基础模型(VFMs)学习到的通用视觉表示,将其作为先验知识融入到SIRST检测任务中,从而提升检测精度和鲁棒性。同时,为了避免引入额外的计算负担,采用隐式自蒸馏策略,将VFMs的知识迁移到轻量级的检测网络中。

技术框架:FDEP框架主要包含三个核心模块:1) 视觉基础模型(VFM):提取图像的全局语义特征。2) 语义对齐调制融合(SAMF)模块:将VFM提取的全局语义特征与任务特定的特征进行对齐和融合。3) 协同优化隐式自蒸馏(CO-ISD)策略:通过参数共享和同步反向传播,实现主分支和轻量级分支之间的知识迁移。整体流程是:首先,使用VFM提取输入图像的全局语义特征;然后,将这些特征输入到SAMF模块中,与编码器-解码器结构的检测网络中的特征进行融合;最后,通过CO-ISD策略,将VFM的知识迁移到轻量级的检测网络中。

关键创新:1) 首次将大规模视觉基础模型引入到SIRST检测任务中,利用其强大的视觉表示能力。2) 提出了语义对齐调制融合(SAMF)模块,实现了全局语义先验与任务特定特征的有效融合。3) 提出了协同优化隐式自蒸馏(CO-ISD)策略,在不增加推理开销的情况下,实现了知识迁移和模型压缩。4) 提出了整体SIRST评估(HSE)指标,统一了碎片化的评估体系。

关键设计:SAMF模块采用动态对齐机制,根据输入特征的相似度自适应地调整融合权重。CO-ISD策略通过参数共享和同步反向传播,保证了主分支和轻量级分支之间的知识一致性。HSE指标采用多阈值积分评估,综合考虑了像素级置信度和目标级鲁棒性。损失函数包括检测损失、蒸馏损失和正则化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,配备FDEP框架的SIRST检测网络在多个公共数据集上取得了SOTA性能。例如,在NUAA-SIRST数据集上,FDEP框架将检测精度提高了5%以上,同时保持了与原始网络相当的推理速度。此外,HSE指标的引入,为更公平、全面的模型评估提供了可能。

🎯 应用场景

该研究成果可应用于智能安防、无人机巡检、自动驾驶等领域,提升红外弱小目标的检测能力,增强系统的环境感知能力和安全性。例如,在智能安防中,可以用于检测入侵者;在无人机巡检中,可以用于检测火灾隐患;在自动驾驶中,可以用于检测行人和其他车辆。

📄 摘要(原文)

While large-scale visual foundation models (VFMs) exhibit strong generalization across diverse visual domains, their potential for single-frame infrared small target (SIRST) detection remains largely unexplored. To fill this gap, we systematically introduce the frozen representations from VFMs into the SIRST task for the first time and propose a Foundation-Driven Efficient Paradigm (FDEP), which can seamlessly adapt to existing encoder-decoder-based methods and significantly improve accuracy without additional inference overhead. Specifically, a Semantic Alignment Modulation Fusion (SAMF) module is designed to achieve dynamic alignment and deep fusion of the global semantic priors from VFMs with task-specific features. Meanwhile, to avoid the inference time burden introduced by VFMs, we propose a Collaborative Optimization-based Implicit Self-Distillation (CO-ISD) strategy, which enables implicit semantic transfer between the main and lightweight branches through parameter sharing and synchronized backpropagation. In addition, to unify the fragmented evaluation system, we construct a Holistic SIRST Evaluation (HSE) metric that performs multi-threshold integral evaluation at both pixel-level confidence and target-level robustness, providing a stable and comprehensive basis for fair model comparison. Extensive experiments demonstrate that the SIRST detection networks equipped with our FDEP framework achieve state-of-the-art (SOTA) performance on multiple public datasets. Our code is available at https://github.com/YuChuang1205/FDEP-Framework