FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

📄 arXiv: 2501.10067v1 📥 PDF

作者: Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

分类: cs.CV

发布日期: 2025-01-17

🔗 代码/项目: GITHUB


💡 一句话要点

FiLo++:融合细粒度描述与可变形定位的零/少样本异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 少样本学习 异常检测 多模态学习 视觉语言模型

📋 核心要点

  1. 现有零/少样本异常检测方法依赖手工通用描述,难以捕捉各种异常,且patch匹配定位精度不足。
  2. FiLo++通过融合细粒度描述(FusDes)和可变形定位(DefLoc)来提升异常检测和定位的准确性。
  3. 实验结果表明,FiLo++在多个数据集上显著优于现有方法,证明了其有效性。

📝 摘要(中文)

异常检测方法通常需要大量目标类别的正常样本进行训练,限制了其在需要快速适应的场景中的应用,例如冷启动。零样本和少样本异常检测不需要预先提供目标类别的带标签样本,是一个很有前景的研究方向。现有的零样本和少样本方法通常利用强大的多模态模型,通过比较图像-文本相似性来检测和定位异常。然而,它们手工制作的通用描述无法捕捉不同对象中可能出现的各种异常,并且简单的patch级别图像-文本匹配难以定位各种形状和大小的异常区域。为了解决这些问题,本文提出了FiLo++方法,该方法由两个关键组件组成。第一个组件,融合细粒度描述(FusDes),利用大型语言模型为每个对象类别生成异常描述,结合固定和可学习的提示模板,并应用运行时提示过滤方法,从而产生更准确和特定于任务的文本描述。第二个组件,可变形定位(DefLoc),将视觉基础模型Grounding DINO与位置增强的文本描述和多尺度可变形跨模态交互(MDCI)模块集成,从而能够准确定位各种形状和大小的异常。此外,我们设计了一种位置增强的patch匹配方法,以提高少样本异常检测性能。在多个数据集上的实验表明,与现有方法相比,FiLo++取得了显著的性能提升。

🔬 方法详解

问题定义:现有的零样本和少样本异常检测方法在描述异常时,依赖于手工设计的通用描述,无法充分捕捉不同对象类别中可能出现的各种异常情况。此外,简单的图像块级别的文本匹配方法难以准确定位形状和大小各异的异常区域。这些问题限制了现有方法在实际应用中的性能和泛化能力。

核心思路:FiLo++的核心思路是利用大型语言模型生成更具针对性和细粒度的异常描述,并结合可变形的跨模态交互模块,实现对各种形状和大小异常区域的精确定位。通过融合细粒度的文本描述和可变形的视觉特征,模型能够更好地理解图像中的异常,并准确定位异常区域。

技术框架:FiLo++包含两个主要模块:融合细粒度描述(FusDes)和可变形定位(DefLoc)。FusDes模块利用大型语言模型生成异常描述,并结合固定和可学习的提示模板,以及运行时提示过滤方法,生成更准确的文本描述。DefLoc模块将视觉基础模型Grounding DINO与位置增强的文本描述和多尺度可变形跨模态交互(MDCI)模块集成,实现对异常区域的精确定位。此外,还设计了一种位置增强的patch匹配方法,以提高少样本异常检测性能。

关键创新:FiLo++的关键创新在于:1) 提出了融合细粒度描述(FusDes)模块,利用大型语言模型生成更具针对性的异常描述,克服了手工设计描述的局限性。2) 提出了可变形定位(DefLoc)模块,结合Grounding DINO和多尺度可变形跨模态交互(MDCI),实现了对各种形状和大小异常区域的精确定位。3) 提出了位置增强的patch匹配方法,进一步提升了少样本异常检测的性能。

关键设计:FusDes模块中,使用了固定和可学习的提示模板,并设计了运行时提示过滤方法,以提高生成描述的准确性。DefLoc模块中,采用了多尺度可变形跨模态交互(MDCI)模块,以适应不同尺度的异常区域。位置增强的patch匹配方法,通过引入位置信息,提高了patch匹配的准确性。具体的参数设置和损失函数等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FiLo++在多个数据集上取得了显著的性能提升。例如,在MVTec AD数据集上,FiLo++的性能优于现有方法,实现了更高的异常检测精度和定位准确率。与基线方法相比,FiLo++在零样本和少样本设置下均取得了显著的性能提升,证明了其有效性和优越性。

🎯 应用场景

FiLo++在工业质检、医疗影像分析、安全监控等领域具有广泛的应用前景。例如,在工业质检中,可以用于检测产品表面的缺陷;在医疗影像分析中,可以用于辅助医生诊断疾病;在安全监控中,可以用于检测异常行为。该研究成果有助于提高异常检测的准确性和效率,降低人工成本,提升智能化水平。

📄 摘要(原文)

Anomaly detection methods typically require extensive normal samples from the target class for training, limiting their applicability in scenarios that require rapid adaptation, such as cold start. Zero-shot and few-shot anomaly detection do not require labeled samples from the target class in advance, making them a promising research direction. Existing zero-shot and few-shot approaches often leverage powerful multimodal models to detect and localize anomalies by comparing image-text similarity. However, their handcrafted generic descriptions fail to capture the diverse range of anomalies that may emerge in different objects, and simple patch-level image-text matching often struggles to localize anomalous regions of varying shapes and sizes. To address these issues, this paper proposes the FiLo++ method, which consists of two key components. The first component, Fused Fine-Grained Descriptions (FusDes), utilizes large language models to generate anomaly descriptions for each object category, combines both fixed and learnable prompt templates and applies a runtime prompt filtering method, producing more accurate and task-specific textual descriptions. The second component, Deformable Localization (DefLoc), integrates the vision foundation model Grounding DINO with position-enhanced text descriptions and a Multi-scale Deformable Cross-modal Interaction (MDCI) module, enabling accurate localization of anomalies with various shapes and sizes. In addition, we design a position-enhanced patch matching approach to improve few-shot anomaly detection performance. Experiments on multiple datasets demonstrate that FiLo++ achieves significant performance improvements compared with existing methods. Code will be available at https://github.com/CASIA-IVA-Lab/FiLo.