LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning

📄 arXiv: 2504.19524v1 📥 PDF

作者: Peijian Zeng, Feiyan Pang, Zhanbo Wang, Aimin Yang

分类: cs.CV

发布日期: 2025-04-28

备注: 10 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出LR-IAD,通过逻辑推理实现无掩码工业异常检测,显著提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 无掩码学习 逻辑推理 思维链 类别不平衡

📋 核心要点

  1. 现有工业异常检测方法依赖掩码标注,成本高且易产生误报,同时忽略了数据集的类别不平衡问题。
  2. 提出LR-IAD,利用奖励函数动态关注稀有缺陷,并结合CoT和GRPO实现无掩码推理。
  3. 实验表明,LR-IAD在MVTec-AD和VisA数据集上显著优于现有方法,准确率分别提升36%和16%。

📝 摘要(中文)

工业异常检测(IAD)对于通过识别缺陷来确保产品质量至关重要。传统的特征嵌入和基于重构的方法需要大量数据集,并且难以扩展。现有的视觉语言模型(VLMs)和多模态大型语言模型(MLLMs)虽然解决了一些限制,但依赖于掩码标注,导致高实现成本和误报。此外,MVTec-AD和VisA等工业数据集存在严重的类别不平衡问题,缺陷样本分别仅占总数据的23.8%和11.1%。为了应对这些挑战,我们提出了一种奖励函数,该函数在训练期间动态地优先考虑稀有缺陷模式,以处理类别不平衡。我们还引入了一个使用思维链(CoT)和群体相对策略优化(GRPO)机制的无掩码推理框架,可以直接从原始图像进行异常检测,而无需带标注的掩码。这种方法为缺陷定位生成可解释的逐步解释。我们的方法实现了最先进的性能,在MVTec-AD上的准确率比以前的方法高出36%,在VisA上的准确率高出16%。通过消除掩码依赖性并降低成本,同时提供可解释的输出,这项工作推进了工业异常检测,并支持制造业中可扩展的质量控制。

🔬 方法详解

问题定义:论文旨在解决工业异常检测中对掩码标注的依赖问题,以及工业数据集中普遍存在的类别不平衡问题。现有方法,如基于特征嵌入和重构的方法,需要大量标注数据,且难以扩展。而依赖掩码的视觉语言模型虽然有所改进,但标注成本高昂,容易产生误报。

核心思路:论文的核心思路是利用逻辑推理,在没有掩码标注的情况下,直接从原始图像中进行异常检测。通过引入奖励函数来动态关注稀有缺陷,解决类别不平衡问题。同时,利用思维链(CoT)和群体相对策略优化(GRPO)机制,生成可解释的逐步推理过程,实现缺陷定位。

技术框架:LR-IAD框架主要包含两个关键部分:一是用于处理类别不平衡的奖励函数,该函数在训练过程中动态调整样本权重,使模型更关注稀有缺陷;二是无掩码推理框架,该框架利用CoT生成逐步推理过程,并通过GRPO优化推理策略,最终实现异常检测和定位。整体流程是从原始图像输入,经过模型推理,输出异常检测结果和可解释的推理过程。

关键创新:最重要的技术创新点在于提出了一个完全无掩码的异常检测框架,摆脱了对昂贵且容易出错的掩码标注的依赖。此外,结合奖励函数和逻辑推理,有效解决了类别不平衡问题,并提高了异常检测的可解释性。与现有方法相比,LR-IAD在降低标注成本的同时,提高了检测精度和可解释性。

关键设计:奖励函数的设计旨在动态调整样本权重,具体形式未知,但其目标是使模型更关注稀有缺陷。CoT的具体实现方式未知,但其作用是生成逐步推理过程,帮助模型进行异常定位。GRPO的具体实现方式也未知,但其作用是优化推理策略,提高检测精度。具体的网络结构和参数设置在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LR-IAD在MVTec-AD和VisA数据集上取得了显著的性能提升。在MVTec-AD数据集上,LR-IAD的准确率比现有方法提高了36%,在VisA数据集上提高了16%。这些结果表明,LR-IAD在无掩码工业异常检测方面具有显著优势,能够有效解决类别不平衡问题,并提供可解释的检测结果。

🎯 应用场景

该研究成果可广泛应用于制造业的质量控制环节,例如产品表面缺陷检测、零部件装配错误检测等。通过降低对人工标注的依赖,可以显著降低生产成本,提高生产效率。此外,可解释的异常检测结果有助于快速定位问题根源,提升产品质量。未来,该技术有望应用于更复杂的工业场景,例如智能制造和自动化生产线。

📄 摘要(原文)

Industrial Anomaly Detection (IAD) is critical for ensuring product quality by identifying defects. Traditional methods such as feature embedding and reconstruction-based approaches require large datasets and struggle with scalability. Existing vision-language models (VLMs) and Multimodal Large Language Models (MLLMs) address some limitations but rely on mask annotations, leading to high implementation costs and false positives. Additionally, industrial datasets like MVTec-AD and VisA suffer from severe class imbalance, with defect samples constituting only 23.8% and 11.1% of total data respectively. To address these challenges, we propose a reward function that dynamically prioritizes rare defect patterns during training to handle class imbalance. We also introduce a mask-free reasoning framework using Chain of Thought (CoT) and Group Relative Policy Optimization (GRPO) mechanisms, enabling anomaly detection directly from raw images without annotated masks. This approach generates interpretable step-by-step explanations for defect localization. Our method achieves state-of-the-art performance, outperforming prior approaches by 36% in accuracy on MVTec-AD and 16% on VisA. By eliminating mask dependency and reducing costs while providing explainable outputs, this work advances industrial anomaly detection and supports scalable quality control in manufacturing. Code to reproduce the experiment is available at https://github.com/LilaKen/LR-IAD.