EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models

📄 arXiv: 2503.14162v2 📥 PDF

作者: Zongyun Zhang, Jiacheng Ruan, Xian Gao, Ting Liu, Yuzhuo Fu

分类: cs.AI

发布日期: 2025-03-18 (更新: 2025-05-16)

备注: Accepted by ICME2025


💡 一句话要点

提出EIAD,通过多模态大语言模型实现可解释的工业异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 多模态学习 大语言模型 缺陷检测 缺陷定位 可解释性 解耦 DDQA数据集

📋 核心要点

  1. 现有零样本缺陷检测方法缺乏对缺陷的详细描述,且多模态大模型在工业异常检测中应用受限。
  2. 提出EIAD,通过解耦对话功能与特征提取,并采用独立优化目标和定制学习策略来解决上述问题。
  3. 构建了首个多模态工业异常检测数据集DDQA,实验表明EIAD在缺陷检测和定位任务中表现出色。

📝 摘要(中文)

工业异常检测(IAD)对于确保制造过程中的产品质量至关重要。现有的零样本缺陷分割和检测方法虽然有效,但无法提供缺陷的详细描述。此外,大型多模态模型在IAD中的应用仍处于起步阶段,面临着平衡问答(QA)性能和基于掩码的定位能力的挑战,这通常是由于微调过程中的过拟合造成的。为了解决这些挑战,我们提出了一种新方法,引入了一个专用的多模态缺陷定位模块,将对话功能与核心特征提取解耦。这种解耦是通过独立的优化目标和定制的学习策略实现的。此外,我们贡献了首个多模态工业异常检测训练数据集,名为缺陷检测问答(DDQA),涵盖了广泛的缺陷类型和工业场景。与依赖GPT生成数据的传统数据集不同,DDQA确保了真实性和可靠性,并为模型训练提供了坚实的基础。实验结果表明,我们提出的方法,即可解释的工业异常检测助手(EIAD),在缺陷检测和定位任务中取得了出色的性能。它不仅显著提高了准确性,还提高了可解释性。这些进步突显了EIAD在工业环境中实际应用的潜力。

🔬 方法详解

问题定义:论文旨在解决工业异常检测中,现有方法无法提供缺陷详细描述,以及多模态大模型在IAD应用中,问答性能和定位能力难以平衡的问题。现有方法容易在微调过程中过拟合,导致性能下降。

核心思路:论文的核心思路是将对话功能与核心特征提取解耦,通过引入一个专用的多模态缺陷定位模块,并采用独立的优化目标和定制的学习策略,从而避免过拟合,提升模型在缺陷检测和定位任务中的性能。

技术框架:EIAD的整体架构包含一个多模态缺陷定位模块和一个对话模块。缺陷定位模块负责提取图像特征并生成缺陷掩码,对话模块则利用这些信息回答关于缺陷的问题。这两个模块通过独立的优化目标进行训练,从而实现解耦。

关键创新:论文的关键创新在于解耦了对话功能和特征提取,并提出了专用的多模态缺陷定位模块。此外,构建了首个多模态工业异常检测数据集DDQA,该数据集具有真实性和可靠性,为模型训练提供了高质量的数据。

关键设计:缺陷定位模块可能采用了卷积神经网络(CNN)或Transformer等结构,用于提取图像特征。损失函数可能包括分割损失(例如Dice Loss或交叉熵损失)和定位损失。对话模块可能采用了预训练的语言模型(例如BERT或GPT),并针对缺陷描述任务进行了微调。具体的参数设置和网络结构在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

EIAD在缺陷检测和定位任务中取得了显著的性能提升,但具体的性能数据、对比基线和提升幅度在摘要中没有明确给出,需要查阅论文全文才能得知。论文强调了EIAD在准确性和可解释性方面的优势,表明其具有实际应用潜力。

🎯 应用场景

EIAD可应用于各种工业制造场景,例如汽车制造、电子产品生产、纺织品检测等。它可以帮助企业快速准确地检测产品缺陷,提高产品质量,降低生产成本。未来,EIAD有望与自动化生产线集成,实现智能化的质量控制。

📄 摘要(原文)

Industrial Anomaly Detection (IAD) is critical to ensure product quality during manufacturing. Although existing zero-shot defect segmentation and detection methods have shown effectiveness, they cannot provide detailed descriptions of the defects. Furthermore, the application of large multi-modal models in IAD remains in its infancy, facing challenges in balancing question-answering (QA) performance and mask-based grounding capabilities, often owing to overfitting during the fine-tuning process. To address these challenges, we propose a novel approach that introduces a dedicated multi-modal defect localization module to decouple the dialog functionality from the core feature extraction. This decoupling is achieved through independent optimization objectives and tailored learning strategies. Additionally, we contribute to the first multi-modal industrial anomaly detection training dataset, named Defect Detection Question Answering (DDQA), encompassing a wide range of defect types and industrial scenarios. Unlike conventional datasets that rely on GPT-generated data, DDQA ensures authenticity and reliability and offers a robust foundation for model training. Experimental results demonstrate that our proposed method, Explainable Industrial Anomaly Detection Assistant (EIAD), achieves outstanding performance in defect detection and localization tasks. It not only significantly enhances accuracy but also improves interpretability. These advancements highlight the potential of EIAD for practical applications in industrial settings.