Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

📄 arXiv: 2510.11028v1 📥 PDF

作者: Yanning Hou, Ke Xu, Junfa Li, Yanran Ruan, Jianfeng Qiu

分类: cs.CV

发布日期: 2025-10-13

备注: Accepted by PRCV


💡 一句话要点

提出CLIP-SAM协同与级联提示的两阶段框架,提升零样本异常检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常检测 图像分割 CLIP SAM 工业质检 提示学习

📋 核心要点

  1. 现有零样本异常分割方法难以有效引导预训练模型,导致分割精度不足。
  2. 提出CLIP-SAM协同框架,利用CLIP定位异常,生成提示引导SAM进行精确分割。
  3. 实验表明,该方法在多个数据集上取得了SOTA结果,并在Visa数据集上显著提升。

📝 摘要(中文)

本文提出了一种新颖的两阶段框架,用于工业异常检测中的零样本异常分割任务。该框架充分利用了CLIP强大的异常定位能力和SAM的边界感知能力。首先,为了缓解SAM对物体分割的倾向,我们提出了协同特征点提示生成(PPG)模块,该模块协同利用CLIP和SAM生成正负点提示,引导SAM专注于分割异常区域而非整个物体。其次,为了进一步优化SAM的分割结果,减轻粗糙边界和孤立噪声,我们引入了SAM级联提示(CPS)模块,该模块采用混合提示与SAM的轻量级解码器级联,实现了异常区域的精确分割。在多个数据集上进行的一致实验验证表明,我们的方法实现了最先进的零样本异常分割结果。特别值得注意的是,我们在Visa数据集上的表现,在$F_1$-max和AP指标上分别超过了现有最佳方法10.3%和7.7%。

🔬 方法详解

问题定义:零样本异常分割旨在无需目标域训练数据的情况下,分割图像中的异常区域。现有方法通常难以有效利用预训练模型,导致分割结果不准确,容易将整个物体分割出来,或者产生粗糙的边界和孤立的噪声点。

核心思路:本文的核心思路是结合CLIP的强大语义理解能力和SAM的精确分割能力,通过CLIP定位潜在的异常区域,并生成相应的提示信息,引导SAM专注于异常区域的分割,从而提高分割精度和鲁棒性。同时,通过级联提示的方式,逐步优化SAM的分割结果。

技术框架:该框架包含两个主要阶段:1) 协同特征点提示生成(PPG)模块:利用CLIP提取图像特征,并结合SAM的特征,生成正负点提示,引导SAM关注异常区域。2) SAM级联提示(CPS)模块:通过混合提示(点提示和掩码提示)与SAM的轻量级解码器级联,逐步优化SAM的分割结果,减少粗糙边界和孤立噪声。

关键创新:该方法的主要创新在于:1) 协同利用CLIP和SAM的优势,实现更精确的异常定位和分割。2) 提出协同特征点提示生成模块,有效引导SAM关注异常区域而非整个物体。3) 引入SAM级联提示模块,逐步优化分割结果,提高分割精度。

关键设计:PPG模块中,CLIP和SAM的特征通过某种方式(例如,拼接或相加)进行融合,以生成更准确的提示点。CPS模块中,轻量级解码器的具体结构(例如,卷积层或Transformer层)以及级联的次数需要根据具体任务进行调整。损失函数通常采用Dice Loss或IoU Loss等分割常用的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数据集上取得了最先进的零样本异常分割结果。特别是在Visa数据集上,该方法在$F_1$-max和AP指标上分别超过了现有最佳方法10.3%和7.7%,证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可应用于工业质检、医疗影像分析、安防监控等领域。例如,在工业质检中,可以自动检测产品表面的缺陷;在医疗影像分析中,可以辅助医生诊断病灶;在安防监控中,可以识别异常行为。该方法无需目标域数据训练,具有很高的实用价值和推广潜力。

📄 摘要(原文)

Recently, the powerful generalization ability exhibited by foundation models has brought forth new solutions for zero-shot anomaly segmentation tasks. However, guiding these foundation models correctly to address downstream tasks remains a challenge. This paper proposes a novel two-stage framework, for zero-shot anomaly segmentation tasks in industrial anomaly detection. This framework excellently leverages the powerful anomaly localization capability of CLIP and the boundary perception ability of SAM.(1) To mitigate SAM's inclination towards object segmentation, we propose the Co-Feature Point Prompt Generation (PPG) module. This module collaboratively utilizes CLIP and SAM to generate positive and negative point prompts, guiding SAM to focus on segmenting anomalous regions rather than the entire object. (2) To further optimize SAM's segmentation results and mitigate rough boundaries and isolated noise, we introduce the Cascaded Prompts for SAM (CPS) module. This module employs hybrid prompts cascaded with a lightweight decoder of SAM, achieving precise segmentation of anomalous regions. Across multiple datasets, consistent experimental validation demonstrates that our approach achieves state-of-the-art zero-shot anomaly segmentation results. Particularly noteworthy is our performance on the Visa dataset, where we outperform the state-of-the-art methods by 10.3\% and 7.7\% in terms of {$F_1$-max} and AP metrics, respectively.