Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models

作者: Sassan Mokhtar, Arian Mousakhan, Silvio Galesso, Jawad Tayyub, Thomas Brox

分类: cs.CV

发布日期: 2025-05-05

备注: Accepted as a spotlight presentation paper at the VAND Workshop, CVPR 2025. 10 pages, 6 figures

💡 一句话要点

提出VELM：利用多模态大语言模型进行工业异常分类，提升异常检测的实用性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 异常分类 大语言模型 多模态学习 视觉语言模型

📋 核心要点

现有工业异常检测方法侧重于异常区域的识别与分割，缺乏对异常类型进行有效分类的能力。
VELM利用视觉专家进行初步异常检测，并结合大语言模型进行细粒度的异常分类，提升了异常理解的深度。
通过构建包含精确异常类别标签的MVTec-AC和VisA-AC数据集，VELM在异常分类任务上取得了显著的性能提升。

📝 摘要（中文）

工业视觉异常检测在识别和分割异常区域方面取得了显著进展，但异常分类（区分不同类型的异常）仍然是一个未被充分探索的领域，尽管它在实际检测任务中至关重要。为了解决这个问题，我们提出了一种基于LLM的新型异常分类流水线VELM。考虑到推理速度的重要性，我们首先应用一种无监督异常检测方法作为视觉专家来评估观测的正常性。如果检测到异常，LLM将对其类型进行分类。开发和评估异常分类模型的一个关键挑战是现有数据集中缺乏精确的异常类别注释。为了解决这个限制，我们引入了MVTec-AC和VisA-AC，它们是广泛使用的MVTec-AD和VisA数据集的改进版本，包括准确的异常类别标签，用于严格的评估。我们的方法在MVTec-AD上实现了80.4%的最先进的异常分类精度，超过了之前的基线5%，在MVTec-AC上实现了84%，证明了VELM在理解和分类异常方面的有效性。我们希望我们的方法和基准能够激发异常分类方面的进一步研究，帮助弥合检测和全面异常表征之间的差距。

🔬 方法详解

问题定义：论文旨在解决工业异常检测中异常分类精度不足的问题。现有方法主要关注异常区域的定位，缺乏对异常类型的细致区分，这限制了异常检测在实际应用中的价值。缺乏带有精确异常类别标签的数据集也阻碍了相关研究的进展。

核心思路：论文的核心思路是结合视觉异常检测和大型语言模型（LLM）的优势。首先利用视觉模型快速检测异常区域，然后利用LLM对检测到的异常进行分类。这种方法旨在利用视觉模型的快速推理能力和LLM的语义理解能力，从而实现更准确和全面的异常分类。

技术框架：VELM框架包含两个主要阶段：1) 视觉异常检测阶段：使用无监督异常检测方法（作为视觉专家）来评估图像的正常性，快速定位潜在的异常区域。2) 异常分类阶段：如果检测到异常，将异常区域的信息输入到LLM中，由LLM对异常类型进行分类。整个流程旨在高效且准确地识别和分类工业异常。

关键创新：论文的关键创新在于将大型语言模型引入到工业异常分类任务中，并构建了带有精确异常类别标签的MVTec-AC和VisA-AC数据集。利用LLM的语义理解能力，可以更好地理解和区分不同类型的异常。同时，高质量的数据集为异常分类模型的训练和评估提供了可靠的基础。

关键设计：VELM框架的关键设计包括：1) 选择合适的视觉异常检测模型，以保证快速和准确的异常区域定位。2) 设计有效的提示工程（Prompt Engineering），将异常区域的信息以适当的方式输入到LLM中，以便LLM能够准确地进行分类。3) 使用交叉熵损失函数训练LLM，并采用适当的优化算法进行参数调整。具体参数设置和网络结构的选择取决于所使用的视觉模型和LLM。

🖼️ 关键图片

📊 实验亮点

VELM在MVTec-AD数据集上实现了80.4%的异常分类精度，相比之前的基线方法提升了5%。在作者构建的MVTec-AC数据集上，VELM达到了84%的精度。这些结果表明，VELM能够有效地利用大语言模型进行工业异常分类，并在性能上超越了现有方法。新数据集的发布也为后续研究提供了有价值的资源。

🎯 应用场景

该研究成果可应用于各种工业检测场景，例如产品质量控制、设备故障诊断和生产流程优化。通过准确分类异常类型，可以帮助工程师快速定位问题根源，采取相应的纠正措施，从而提高生产效率和产品质量，降低维护成本。未来，该方法有望扩展到其他领域，如医疗影像分析和安全监控。

📄 摘要（原文）

Recent advances in visual industrial anomaly detection have demonstrated exceptional performance in identifying and segmenting anomalous regions while maintaining fast inference speeds. However, anomaly classification-distinguishing different types of anomalies-remains largely unexplored despite its critical importance in real-world inspection tasks. To address this gap, we propose VELM, a novel LLM-based pipeline for anomaly classification. Given the critical importance of inference speed, we first apply an unsupervised anomaly detection method as a vision expert to assess the normality of an observation. If an anomaly is detected, the LLM then classifies its type. A key challenge in developing and evaluating anomaly classification models is the lack of precise annotations of anomaly classes in existing datasets. To address this limitation, we introduce MVTec-AC and VisA-AC, refined versions of the widely used MVTec-AD and VisA datasets, which include accurate anomaly class labels for rigorous evaluation. Our approach achieves a state-of-the-art anomaly classification accuracy of 80.4% on MVTec-AD, exceeding the prior baselines by 5%, and 84% on MVTec-AC, demonstrating the effectiveness of VELM in understanding and categorizing anomalies. We hope our methodology and benchmark inspire further research in anomaly classification, helping bridge the gap between detection and comprehensive anomaly characterization.

Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理