VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection

📄 arXiv: 2409.20146v1 📥 PDF

作者: Huilin Deng, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang

分类: cs.CV

发布日期: 2024-09-30


💡 一句话要点

提出VMAD:视觉增强的多模态大语言模型用于零样本异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本异常检测 多模态大语言模型 工业异常检测 视觉增强 缺陷敏感结构学习

📋 核心要点

  1. 现有零样本异常检测方法在处理未见过的缺陷时存在局限性,无法充分利用开放世界的知识。
  2. VMAD框架通过缺陷敏感的结构学习和局部性增强的Token压缩,增强MLLM对细粒度异常的感知和判别能力。
  3. 在多个零样本异常检测数据集上,VMAD显著优于现有方法,并贡献了一个新的真实工业异常检测数据集RIAD。

📝 摘要(中文)

零样本异常检测(ZSAD)旨在通过建立文本提示和检测图像之间的特征映射,识别和定位先前未见过的物体中的异常,在灵活的工业制造中具有重要的研究价值。然而,现有的ZSAD方法受限于封闭世界设置,难以处理具有预定义提示的未见过的缺陷。最近,将多模态大语言模型(MLLM)应用于工业异常检测(IAD)提供了一种可行的解决方案。与固定提示方法不同,MLLM表现出生成范式和开放式的文本解释,从而能够进行更具适应性的异常分析。然而,这种适应面临着固有的挑战,因为异常通常出现在细粒度区域,并且与正常样本的视觉差异极小。为了应对这些挑战,我们提出了一种新的框架VMAD(视觉增强的MLLM异常检测),该框架利用基于视觉的IAD知识和细粒度感知来增强MLLM,同时提供精确的检测和全面的异常分析。具体来说,我们设计了一种缺陷敏感的结构学习方案,将来自视觉分支的patch相似性线索传递到我们的MLLM,以提高异常辨别能力。此外,我们引入了一种新的视觉投影仪,即局部性增强的Token压缩,它挖掘局部上下文中的多层次特征,以增强细粒度检测。此外,我们还引入了真实工业异常检测(RIAD)数据集,这是一个包含详细异常描述和分析的综合性IAD数据集,为基于MLLM的IAD开发提供了宝贵的资源。在包括MVTec-AD、Visa、WFDD和RIAD数据集在内的零样本基准测试中进行的大量实验表明,我们的方法优于最先进的方法。代码和数据集即将发布。

🔬 方法详解

问题定义:现有零样本异常检测方法难以处理工业场景中复杂多样的异常类型,尤其是在缺乏标注数据的情况下。它们通常依赖于预定义的文本提示,无法灵活适应新的缺陷类型。此外,工业异常往往表现为细微的视觉差异,对模型的感知能力提出了更高的要求。

核心思路:VMAD的核心思路是利用多模态大语言模型(MLLM)的开放式文本理解能力,结合视觉信息,实现对工业异常的精确检测和分析。通过视觉增强,提升MLLM对细粒度异常的感知能力,使其能够更好地理解和区分正常样本与异常样本。

技术框架:VMAD框架主要包含以下几个模块:1) 视觉分支:用于提取图像的视觉特征。2) 缺陷敏感的结构学习模块:将视觉分支提取的patch相似性信息传递给MLLM,增强其异常判别能力。3) 局部性增强的Token压缩模块:作为视觉投影仪,挖掘局部上下文中的多层次特征,提升细粒度检测能力。4) MLLM:利用增强后的视觉特征和文本提示,进行异常检测和分析。

关键创新:VMAD的关键创新在于:1) 缺陷敏感的结构学习方案,通过patch相似性传递,增强MLLM的异常判别能力。2) 局部性增强的Token压缩模块,有效提取局部上下文中的多层次特征,提升细粒度检测精度。3) 提出了RIAD数据集,为MLLM在工业异常检测中的应用提供了新的benchmark。

关键设计:缺陷敏感的结构学习方案通过计算图像patch之间的相似度,构建结构信息,并将其融入到MLLM的训练过程中。局部性增强的Token压缩模块采用多层卷积神经网络,提取不同尺度的局部特征,并通过注意力机制进行融合。RIAD数据集包含多种工业场景下的异常样本,并提供了详细的文本描述和分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VMAD在MVTec-AD、Visa、WFDD和RIAD等零样本异常检测数据集上取得了显著的性能提升,超越了现有最先进的方法。例如,在RIAD数据集上,VMAD的性能提升尤为明显,证明了其在真实工业场景下的有效性。具体性能数据将在论文中详细展示。

🎯 应用场景

VMAD在工业制造领域具有广泛的应用前景,可用于产品质量检测、设备故障诊断等场景。通过零样本学习能力,能够快速适应新的产品和缺陷类型,降低人工标注成本,提高生产效率。未来,可进一步扩展到其他领域,如医疗影像分析、安全监控等。

📄 摘要(原文)

Zero-shot anomaly detection (ZSAD) recognizes and localizes anomalies in previously unseen objects by establishing feature mapping between textual prompts and inspection images, demonstrating excellent research value in flexible industrial manufacturing. However, existing ZSAD methods are limited by closed-world settings, struggling to unseen defects with predefined prompts. Recently, adapting Multimodal Large Language Models (MLLMs) for Industrial Anomaly Detection (IAD) presents a viable solution. Unlike fixed-prompt methods, MLLMs exhibit a generative paradigm with open-ended text interpretation, enabling more adaptive anomaly analysis. However, this adaption faces inherent challenges as anomalies often manifest in fine-grained regions and exhibit minimal visual discrepancies from normal samples. To address these challenges, we propose a novel framework VMAD (Visual-enhanced MLLM Anomaly Detection) that enhances MLLM with visual-based IAD knowledge and fine-grained perception, simultaneously providing precise detection and comprehensive analysis of anomalies. Specifically, we design a Defect-Sensitive Structure Learning scheme that transfers patch-similarities cues from visual branch to our MLLM for improved anomaly discrimination. Besides, we introduce a novel visual projector, Locality-enhanced Token Compression, which mines multi-level features in local contexts to enhance fine-grained detection. Furthermore, we introduce the Real Industrial Anomaly Detection (RIAD), a comprehensive IAD dataset with detailed anomaly descriptions and analyses, offering a valuable resource for MLLM-based IAD development. Extensive experiments on zero-shot benchmarks, including MVTec-AD, Visa, WFDD, and RIAD datasets, demonstrate our superior performance over state-of-the-art methods. The code and dataset will be available soon.