FMNet: Frequency-Assisted Mamba-Like Linear Attention Network for Camouflaged Object Detection

📄 arXiv: 2503.11030v2 📥 PDF

作者: Ming Deng, Sijin Sun, Zihao Li, Xiaochuan Hu, Xing Wu

分类: cs.CV, cs.AI

发布日期: 2025-03-14 (更新: 2025-05-31)

🔗 代码/项目: GITHUB


💡 一句话要点

提出FMNet,一种频率辅助的Mamba线性注意力网络,用于伪装目标检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 伪装目标检测 频域学习 Mamba 线性注意力 多尺度特征融合

📋 核心要点

  1. 现有伪装目标检测方法依赖局部特征,缺乏全局信息,Transformer计算成本高昂。
  2. FMNet利用频域学习捕获全局特征,减轻目标与背景的歧义性,提升检测效果。
  3. FMNet在多个COD数据集上超越现有方法,证明了其在性能和效率上的优势。

📝 摘要(中文)

伪装目标检测(COD)由于伪装对象与其周围环境的高度相似性而具有挑战性,这使得识别变得复杂。现有方法主要依赖于空间局部特征,无法捕获全局信息,而Transformer会增加计算成本。为了解决这个问题,本文提出了一种频率辅助的Mamba线性注意力网络(FMNet),它利用频域学习来有效地捕获全局特征,并减轻对象和背景之间的歧义。FMNet引入了多尺度频率辅助Mamba线性注意力(MFM)模块,通过多尺度结构集成频率和空间特征,以处理尺度变化,同时降低计算复杂度。此外,金字塔频率注意力提取(PFAE)模块和频率反向解码器(FRD)增强了语义并重建了特征。实验结果表明,FMNet在多个COD数据集上优于现有方法,展示了其在性能和效率方面的优势。

🔬 方法详解

问题定义:伪装目标检测(COD)旨在识别图像中与周围环境高度相似的目标。现有方法主要依赖于空间局部特征,难以捕捉全局上下文信息,导致检测精度受限。Transformer虽然能够捕捉全局信息,但计算复杂度高,难以应用于高分辨率图像或实时场景。因此,如何在计算资源有限的情况下,有效提取全局特征,是COD领域面临的关键问题。

核心思路:FMNet的核心思路是利用频域信息来辅助空间域特征的学习。频域信息能够有效地捕捉图像的全局结构和纹理信息,从而帮助区分伪装目标和背景。通过将频域特征与空间域特征相结合,FMNet能够更全面地理解图像内容,提高检测精度。同时,借鉴Mamba架构的线性注意力机制,降低计算复杂度,提升效率。

技术框架:FMNet的整体架构包括三个主要模块:Pyramidal Frequency Attention Extraction (PFAE)模块、Multi-Scale Frequency-Assisted Mamba-Like Linear Attention (MFM)模块和Frequency Reverse Decoder (FRD)模块。首先,PFAE模块用于提取多尺度的频率特征。然后,MFM模块将频率特征与空间特征融合,并利用Mamba-Like线性注意力机制进行特征增强。最后,FRD模块用于重建特征,生成最终的伪装目标预测图。

关键创新:FMNet的关键创新在于将频域信息引入到Mamba-Like线性注意力网络中,用于伪装目标检测。与现有方法相比,FMNet能够更有效地捕捉全局特征,并降低计算复杂度。此外,MFM模块的多尺度设计能够更好地处理不同尺度的伪装目标。PFAE和FRD模块进一步增强了语义信息,提高了检测精度。

关键设计:MFM模块采用了多尺度结构,分别提取不同尺度的频率特征,然后将这些特征与空间特征融合。Mamba-Like线性注意力机制通过状态空间模型来建模序列关系,降低了计算复杂度。损失函数方面,论文可能采用了二元交叉熵损失或Dice损失等常用的分割损失函数,具体细节需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FMNet在多个公开的伪装目标检测数据集上取得了显著的性能提升。例如,在COD10K数据集上,FMNet的S-measure指标达到了XXX,E-measure指标达到了YYY,超过了当前最先进的方法。此外,FMNet在计算效率方面也表现出色,与Transformer相比,显著降低了计算复杂度。

🎯 应用场景

FMNet在伪装目标检测领域具有广泛的应用前景,例如在遥感图像分析中识别伪装的军事目标,在医学图像分析中检测隐藏的病灶,以及在自动驾驶中识别难以察觉的障碍物。该研究成果有助于提高相关系统的智能化水平和安全性,具有重要的实际价值和潜在的社会影响。

📄 摘要(原文)

Camouflaged Object Detection (COD) is challenging due to the strong similarity between camouflaged objects and their surroundings, which complicates identification. Existing methods mainly rely on spatial local features, failing to capture global information, while Transformers increase computational costs. To address this, the Frequency-Assisted Mamba-Like Linear Attention Network (FMNet) is proposed, which leverages frequency-domain learning to efficiently capture global features and mitigate ambiguity between objects and the background. FMNet introduces the Multi-Scale Frequency-Assisted Mamba-Like Linear Attention (MFM) module, integrating frequency and spatial features through a multi-scale structure to handle scale variations while reducing computational complexity. Additionally, the Pyramidal Frequency Attention Extraction (PFAE) module and the Frequency Reverse Decoder (FRD) enhance semantics and reconstruct features. Experimental results demonstrate that FMNet outperforms existing methods on multiple COD datasets, showcasing its advantages in both performance and efficiency. Code available at https://github.com/Chranos/FMNet.