IAD-R1: Reinforcing Consistent Reasoning in Industrial Anomaly Detection

作者: Yanhui Li, Yunkang Cao, Chengliang Liu, Yuan Xiong, Xinghui Dong, Chao Huang

分类: cs.CV, cs.AI

发布日期: 2025-08-07 (更新: 2025-08-14)

🔗 代码/项目: GITHUB

💡 一句话要点

提出IAD-R1框架，增强视觉-语言模型在工业异常检测中的推理一致性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 视觉-语言模型 后训练 思维链 强化学习

📋 核心要点

工业异常检测面临缺陷样本稀缺的挑战，限制了传统方法的泛化能力，而现有视觉-语言模型在该领域的性能仍有提升空间。
IAD-R1框架通过两阶段训练，首先增强模型对异常的感知和推理能力，然后利用奖励函数引导模型从感知到解释的飞跃。
实验表明，IAD-R1显著提升了多个视觉-语言模型在工业异常检测中的性能，甚至超越了某些商业模型，证明了其有效性。

📝 摘要（中文）

工业异常检测是现代制造业的关键组成部分，但缺陷样本的稀缺性限制了传统检测方法在特定场景的应用。尽管视觉-语言模型(VLMs)在泛化能力方面表现出显著优势，但它们在工业异常检测中的性能仍然有限。为了解决这一挑战，我们提出了IAD-R1，一个通用的后训练框架，适用于不同架构和参数规模的VLMs，从而显著增强它们的异常检测能力。IAD-R1采用两阶段训练策略：感知激活监督微调(PA-SFT)阶段利用精心构建的高质量思维链数据集(Expert-AD)进行训练，增强异常感知能力并建立推理到答案的相关性；结构化控制组相对策略优化(SC-GRPO)阶段采用精心设计的奖励函数，实现从“异常感知”到“异常解释”的能力飞跃。实验结果表明，IAD-R1在7个VLMs上取得了显著的改进，其中在DAGM数据集上的平均准确率比0.5B基线高43.3%。值得注意的是，使用IAD-R1训练的0.5B参数模型在零样本设置中超过了包括GPT-4.1和Claude-Sonnet-4在内的商业模型，证明了IAD-R1的有效性和优越性。数据集、代码和所有模型权重将在https://github.com/Yanhui-Lee/IAD-R1上公开。

🔬 方法详解

问题定义：论文旨在解决工业异常检测中，视觉-语言模型（VLMs）由于缺乏针对性训练数据，导致检测精度不高，泛化能力不足的问题。现有方法难以充分利用VLMs的潜力，尤其是在缺陷样本稀缺的情况下，模型的推理能力受到限制。

核心思路：论文的核心思路是通过后训练的方式，增强VLMs在工业异常检测任务中的推理一致性。具体而言，通过构建高质量的思维链数据集和设计有效的奖励函数，引导模型学习从感知异常到解释异常的完整推理过程，从而提高检测精度和泛化能力。

技术框架：IAD-R1框架包含两个主要阶段：感知激活监督微调（PA-SFT）和结构化控制组相对策略优化（SC-GRPO）。PA-SFT阶段利用Expert-AD数据集，通过监督学习增强模型对异常的感知能力，并建立推理到答案的映射关系。SC-GRPO阶段则通过强化学习，利用奖励函数引导模型从“异常感知”到“异常解释”的能力提升。

关键创新：IAD-R1的关键创新在于其两阶段训练策略，以及针对每个阶段设计的特定数据集和奖励函数。PA-SFT阶段的Expert-AD数据集包含高质量的思维链标注，有助于模型学习更有效的推理过程。SC-GRPO阶段的奖励函数则鼓励模型生成更具解释性的异常检测结果，从而提高检测的可靠性。

关键设计：Expert-AD数据集的构建需要领域专家参与，确保标注的准确性和完整性。SC-GRPO阶段的奖励函数设计需要仔细考虑，以平衡检测精度和解释性之间的关系。具体的奖励函数可能包括基于检测结果的奖励、基于解释质量的奖励等。此外，控制组的设计也至关重要，需要选择合适的负样本，以提高训练的效率和稳定性。

🖼️ 关键图片

📊 实验亮点

IAD-R1框架在7个不同的视觉-语言模型上都取得了显著的性能提升，在DAGM数据集上，平均准确率比0.5B参数的基线模型高出43.3%。更令人瞩目的是，经过IAD-R1训练的0.5B参数模型在零样本设置下，其性能甚至超越了GPT-4.1和Claude-Sonnet-4等商业模型，充分证明了IAD-R1的有效性和优越性。

🎯 应用场景

IAD-R1框架可广泛应用于各种工业制造场景中的产品质量检测，例如电子元件、汽车零部件、纺织品等。通过提高异常检测的准确性和可靠性，可以减少次品率，降低生产成本，提高产品质量，并最终提升企业的竞争力。该研究的成果还有助于推动智能制造和工业自动化的发展。

📄 摘要（原文）

Industrial anomaly detection is a critical component of modern manufacturing, yet the scarcity of defective samples restricts traditional detection methods to scenario-specific applications. Although Vision-Language Models (VLMs) demonstrate significant advantages in generalization capabilities, their performance in industrial anomaly detection remains limited. To address this challenge, we propose IAD-R1, a universal post-training framework applicable to VLMs of different architectures and parameter scales, which substantially enhances their anomaly detection capabilities. IAD-R1 employs a two-stage training strategy: the Perception Activation Supervised Fine-Tuning (PA-SFT) stage utilizes a meticulously constructed high-quality Chain-of-Thought dataset (Expert-AD) for training, enhancing anomaly perception capabilities and establishing reasoning-to-answer correlations; the Structured Control Group Relative Policy Optimization (SC-GRPO) stage employs carefully designed reward functions to achieve a capability leap from "Anomaly Perception" to "Anomaly Interpretation". Experimental results demonstrate that IAD-R1 achieves significant improvements across 7 VLMs, the largest improvement was on the DAGM dataset, with average accuracy 43.3% higher than the 0.5B baseline. Notably, the 0.5B parameter model trained with IAD-R1 surpasses commercial models including GPT-4.1 and Claude-Sonnet-4 in zero-shot settings, demonstrating the effectiveness and superiority of IAD-R1. The dataset, code, and all model weights will be publicly available at https://github.com/Yanhui-Lee/IAD-R1.

IAD-R1: Reinforcing Consistent Reasoning in Industrial Anomaly Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理