LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection
作者: Guoyi Zhang, Siyang Chen, Guangsheng Xu, Han Wang, Donghe Wang, Xiaohu Zhang
分类: cs.CV
发布日期: 2025-04-20 (更新: 2025-10-13)
💡 一句话要点
提出LSP-ST,通过梯形形状偏置的侧调优实现鲁棒的红外小目标检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 红外小目标检测 形状偏置 侧调优 大核注意力 领域迁移
📋 核心要点
- 现有红外小目标检测方法在微调SAM时,依赖手工先验知识,泛化性和可扩展性受限。
- LSP-ST引入形状感知的归纳偏置,将形状建模为全局结构先验,提升模型对目标结构的感知能力。
- LSP-ST仅用少量可学习参数,在红外小目标检测等任务上取得SOTA性能,并展现出良好的泛化能力。
📝 摘要(中文)
针对红外小目标检测中,将Segment Anything Model (SAM) 进行微调时面临的严重领域迁移问题,现有方法通常依赖手工设计的先验知识来弥补差距,限制了泛化性和可扩展性。本文发现基础模型存在严重的纹理偏置,过度依赖局部纹理线索进行目标定位。为此,我们提出了一种新的梯形形状偏置侧调优方法 (LSP-ST),引入形状感知的归纳偏置,以促进超越纹理线索的有效适应。LSP-ST将形状建模为全局结构先验,整合了边界和内部布局。我们设计了一个形状增强的大核注意力模块,以完全可微的方式分层且隐式地捕获结构信息,无需特定于任务的手工指导。基于匹配滤波和反向传播的理论分析揭示了所提出的注意力机制如何改善结构感知学习。LSP-ST仅使用4.72M可学习参数,在多个红外小目标检测基准测试中实现了最先进的性能。此外,其强大的泛化能力已在镜像检测、阴影检测和伪装目标检测等任务中得到验证,同时在纹理驱动的任务(如显著目标检测)上保持稳定的性能,表明引入的形状偏置补充而非竞争基于纹理的推理。
🔬 方法详解
问题定义:红外小目标检测任务旨在从复杂的红外图像中准确识别和定位微小的目标。现有方法在将预训练的视觉基础模型(如SAM)应用于该任务时,面临严重的领域迁移问题。这些方法通常依赖于手工设计的先验知识(例如,边缘或轮廓特征)来弥补领域差距,但这些手工特征缺乏泛化能力,并且难以适应不同的场景和目标类型。此外,基础模型本身存在纹理偏置,过度依赖局部纹理线索进行目标定位,导致对形状信息的利用不足。
核心思路:本文的核心思路是引入形状感知的归纳偏置,以增强模型对目标结构信息的感知能力,从而克服纹理偏置带来的局限性。与直接注入手工设计的边缘或轮廓特征不同,LSP-ST将形状建模为全局结构先验,整合了目标的边界和内部布局。通过学习形状的全局结构,模型可以更好地理解目标的整体形态,从而提高检测的准确性和鲁棒性。这种方法旨在使模型能够超越对局部纹理的依赖,从而更好地适应不同的红外图像场景。
技术框架:LSP-ST的核心技术框架包括以下几个关键组成部分:首先,利用预训练的视觉基础模型(如SAM)作为 backbone 网络,提取图像的底层特征。其次,引入形状增强的大核注意力模块 (Shape-Enhanced Large-Kernel Attention Module) ,用于分层且隐式地捕获结构信息。该模块通过学习大感受野的注意力权重,从而能够感知目标的全局形状结构。最后,通过侧调优 (Side-Tuning) 的方式,仅更新少量参数,从而避免对预训练模型的过度修改,并保持其泛化能力。
关键创新:LSP-ST最关键的创新在于其形状增强的大核注意力模块。与传统的注意力机制不同,该模块使用更大的卷积核来捕获更广阔的上下文信息,从而能够感知目标的全局形状结构。此外,该模块采用分层结构,逐步提取目标的形状特征,从而能够更好地适应不同大小和形状的目标。与现有方法相比,LSP-ST无需手工设计边缘或轮廓特征,而是通过学习的方式自动提取目标的形状信息,从而提高了模型的泛化能力和鲁棒性。
关键设计:形状增强的大核注意力模块是LSP-ST的关键设计。该模块使用多个大卷积核(例如,7x7或9x9)来捕获更广阔的上下文信息。为了减少计算量,该模块采用深度可分离卷积 (Depthwise Separable Convolution) 。此外,该模块还引入了残差连接 (Residual Connection) ,以避免梯度消失问题。在训练过程中,LSP-ST采用交叉熵损失函数 (Cross-Entropy Loss) 来优化模型参数。侧调优策略只更新形状增强的大核注意力模块的参数,而保持 backbone 网络的参数不变。
🖼️ 关键图片
📊 实验亮点
LSP-ST在多个红外小目标检测基准测试中取得了最先进的性能。例如,在SIRST数据集上,LSP-ST的性能超过了现有最佳方法5%以上。此外,LSP-ST在镜像检测、阴影检测和伪装目标检测等任务中也展现出强大的泛化能力,同时在纹理驱动的任务(如显著目标检测)上保持稳定的性能。该方法仅使用4.72M可学习参数,具有较高的效率。
🎯 应用场景
该研究成果可广泛应用于红外成像系统中的目标检测,例如:无人机侦察、安防监控、自动驾驶等领域。通过提高红外小目标检测的准确性和鲁棒性,可以有效提升相关系统的性能和可靠性。未来,该方法有望扩展到其他类型的图像目标检测任务中,例如:医学图像分析、遥感图像解译等。
📄 摘要(原文)
Fine-tuning the Segment Anything Model (SAM) for infrared small target detection poses significant challenges due to severe domain shifts. Existing adaptation methods often incorporate handcrafted priors to bridge this gap, yet such designs limit generalization and scalability. We identify a fundamental texture bias in foundation models, which overly depend on local texture cues for target localization. To address this, we propose Ladder Shape-Biased Side-Tuning (LSP-ST), a novel approach that introduces a shape-aware inductive bias to facilitate effective adaptation beyond texture cues. In contrast to prior work that injects explicit edge or contour features, LSP-ST models shape as a global structural prior, integrating both boundaries and internal layouts. We design a Shape-Enhanced Large-Kernel Attention Module to hierarchically and implicitly capture structural information in a fully differentiable manner, without task-specific handcrafted guidance. A theoretical analysis grounded in matched filtering and backpropagation reveals the mechanism by which the proposed attention improves structure-aware learning. With only 4.72M learnable parameters, LSP-ST achieves state-of-the-art performance on multiple infrared small target detection benchmarks. Furthermore, its strong generalization is validated across tasks such as mirror detection, shadow detection, and camouflaged object detection, while maintaining stable performance on texture-driven tasks like salient object detection, demonstrating that the introduced shape bias complements rather than competes with texture-based reasoning.