Pyramid-based Mamba Multi-class Unsupervised Anomaly Detection

📄 arXiv: 2504.03442v1 📥 PDF

作者: Nasar Iqbal, Niki Martinel

分类: cs.CV

发布日期: 2025-04-04

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于金字塔Mamba的多类别无监督异常检测方法,提升小异常定位精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 异常检测 无监督学习 状态空间模型 金字塔扫描 多尺度特征 小异常定位 工业质检

📋 核心要点

  1. 现有CNN方法难以捕捉长程依赖,Transformer方法计算开销大,限制了小异常的精确定位。
  2. 提出基于状态空间模型的金字塔扫描策略,结合多尺度特征提取和特征级合成异常生成,提升小异常定位能力。
  3. 在MVTec数据集上,多类别异常定位的AP和AU-PRO指标均提升了1%,验证了方法在工业场景下的有效性。

📝 摘要(中文)

本文提出了一种基于状态空间模型(SSM)的金字塔扫描策略(PSS),用于多类别异常检测和定位。该方法旨在解决小异常精确定位的挑战。通过将PSS与预训练编码器相结合,实现多尺度特征提取,并结合特征级合成异常生成器,从而捕获多尺度的细粒度细节。在MVTec基准测试中,多类别异常定位的AP提升了+1%,AU-PRO提升了+1%,证明了该方法在各种工业场景中精确定位异常方面的优越性。代码已开源。

🔬 方法详解

问题定义:论文旨在解决工业场景中多类别异常检测与定位问题,尤其关注小尺寸异常的精确定位。现有方法,如基于CNN的方法难以捕捉长程依赖关系,而基于Transformer的方法则面临计算复杂度过高的问题,导致小异常的检测精度不足。

核心思路:论文的核心思路是利用状态空间模型(SSM)的优势,结合金字塔扫描策略(PSS),实现对图像多尺度信息的有效提取和融合。通过多尺度特征提取,可以同时关注全局上下文信息和局部细节信息,从而提高小异常的检测精度。同时,采用特征级合成异常生成器,扩充训练数据,提升模型的泛化能力。

技术框架:整体框架包含三个主要模块:1) 预训练编码器:用于提取图像的多尺度特征表示。2) 金字塔扫描策略(PSS):基于状态空间模型,对多尺度特征进行扫描和建模,捕捉长程依赖关系。3) 特征级合成异常生成器:在特征空间生成合成异常样本,用于训练异常检测模型。模型首先通过预训练编码器提取多尺度特征,然后利用PSS进行特征扫描和建模,最后通过异常检测模型判断是否存在异常并定位异常位置。

关键创新:论文的关键创新在于提出了基于状态空间模型的金字塔扫描策略(PSS),并将其应用于多类别异常检测与定位。PSS能够有效地捕捉图像中的长程依赖关系,并且计算复杂度相对较低,适合处理高分辨率图像。此外,特征级合成异常生成器的引入,可以有效缓解异常样本不足的问题,提高模型的鲁棒性。

关键设计:金字塔扫描策略(PSS)的具体实现细节包括:状态空间模型的选择(例如Mamba),扫描方向的设计(例如水平、垂直、对角线等),以及多尺度特征的融合方式。特征级合成异常生成器的设计需要考虑异常的类型、大小、形状等因素,以及如何将合成异常与真实图像进行融合。损失函数的设计需要同时考虑异常检测和定位的精度,例如可以使用交叉熵损失函数和IoU损失函数的组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MVTec数据集上取得了显著的性能提升。多类别异常定位的平均精度(AP)提高了1%,AU-PRO指标提高了1%。这些结果表明,该方法在精确定位小尺寸异常方面具有显著优势,优于现有的基于CNN和Transformer的方法。

🎯 应用场景

该研究成果可广泛应用于工业质检、医疗影像分析、安防监控等领域。例如,在工业生产线上,可以利用该方法自动检测产品表面的缺陷,提高产品质量和生产效率。在医疗影像分析中,可以辅助医生诊断疾病,提高诊断准确率。在安防监控中,可以实时检测异常事件,提高安全防范能力。未来,该方法有望进一步拓展到其他领域,如自动驾驶、机器人导航等。

📄 摘要(原文)

Recent advances in convolutional neural networks (CNNs) and transformer-based methods have improved anomaly detection and localization, but challenges persist in precisely localizing small anomalies. While CNNs face limitations in capturing long-range dependencies, transformer architectures often suffer from substantial computational overheads. We introduce a state space model (SSM)-based Pyramidal Scanning Strategy (PSS) for multi-class anomaly detection and localization--a novel approach designed to address the challenge of small anomaly localization. Our method captures fine-grained details at multiple scales by integrating the PSS with a pre-trained encoder for multi-scale feature extraction and a feature-level synthetic anomaly generator. An improvement of $+1\%$ AP for multi-class anomaly localization and a +$1\%$ increase in AU-PRO on MVTec benchmark demonstrate our method's superiority in precise anomaly localization across diverse industrial scenarios. The code is available at https://github.com/iqbalmlpuniud/Pyramid Mamba.