AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection

📄 arXiv: 2512.13671v1 📥 PDF

作者: Junwen Miao, Penghui Du, Yi Liu, Yu Wang, Yan Wang

分类: cs.CV

发布日期: 2025-12-15


💡 一句话要点

AgentIAD:工具增强的单智能体工业异常检测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 工业异常检测 视觉语言模型 智能体 强化学习 工具增强 多阶段检查 可解释性

📋 核心要点

  1. 工业异常检测中,正常样本少且缺陷细微,传统方法难以有效识别。
  2. AgentIAD利用工具增强的智能体,通过多阶段检查和比较正常样本来检测异常。
  3. AgentIAD在MMAD数据集上取得了97.62%的分类精度,超越现有方法。

📝 摘要(中文)

工业异常检测(IAD)面临正常样本稀缺和缺陷细微局部的挑战。单次视觉-语言模型(VLM)常忽略小异常,缺乏与标准正常模式比较的机制。我们提出AgentIAD,一个工具驱动的智能体框架,实现多阶段视觉检查。智能体配备感知缩放器(PZ)进行局部细粒度分析,以及比较检索器(CR)在证据模糊时查询正常样本。为训练检查行为,我们从MMAD数据集构建结构化的感知和比较轨迹,并分两阶段训练:监督微调和强化学习。双重奖励设计驱动此过程:感知奖励监督分类精度、空间对齐和类型正确性,行为奖励鼓励高效工具使用。这些组件共同使模型通过逐步观察、缩放和验证来改进判断。AgentIAD在MMAD上达到97.62%的分类精度,超越了先前的基于MLLM的方法,并产生透明且可解释的检查轨迹。

🔬 方法详解

问题定义:工业异常检测任务旨在识别生产线上的缺陷产品。现有方法,特别是单次视觉-语言模型(VLM),在处理细微、局部异常时表现不佳,缺乏与正常样本进行显式比较的机制,容易忽略关键缺陷。因此,如何有效地利用有限的正常样本信息,并设计能够聚焦细微异常的检测流程,是本论文要解决的核心问题。

核心思路:本论文的核心思路是引入一个工具增强的智能体,通过多阶段的视觉检查流程来模拟人类专家的检测过程。智能体可以利用“感知缩放器”聚焦局部区域,并利用“比较检索器”查询正常样本进行对比,从而更准确地判断是否存在异常。这种设计借鉴了人类专家逐步观察、放大细节、对比参考的检测习惯。

技术框架:AgentIAD框架包含以下主要模块:1) Perceptive Zoomer (PZ):用于对图像的局部区域进行细粒度分析。2) Comparative Retriever (CR):用于从正常样本库中检索相似的样本进行比较。3) Agent:负责控制PZ和CR的使用,并根据观察结果做出判断。训练过程分为两个阶段:首先,使用监督学习对智能体进行微调,使其初步具备感知和比较能力;然后,使用强化学习进一步优化智能体的行为策略,使其能够更有效地利用工具进行检测。

关键创新:本论文最重要的技术创新在于将工具增强的智能体引入工业异常检测领域。与传统的单次VLM方法相比,AgentIAD能够通过多阶段的检查流程,更有效地利用局部信息和正常样本信息,从而提高检测精度。此外,AgentIAD的检查过程是透明且可解释的,可以为用户提供更详细的异常诊断信息。

关键设计:在训练过程中,论文设计了一个双重奖励机制:1) 感知奖励:用于监督分类精度、空间对齐和类型正确性,确保智能体能够准确地识别异常类型和位置。2) 行为奖励:用于鼓励智能体高效地使用工具,例如,减少不必要的缩放或检索操作。此外,论文还构建了结构化的感知和比较轨迹,用于指导智能体的学习过程。具体而言,这些轨迹模拟了人类专家在检测过程中的思考路径和操作步骤。

📊 实验亮点

AgentIAD在MMAD数据集上取得了97.62%的分类精度,显著超越了先前的基于MLLM的方法,达到了新的state-of-the-art水平。实验结果表明,通过工具增强和多阶段检查,AgentIAD能够更有效地检测细微、局部的工业异常,并提供可解释的检查轨迹。

🎯 应用场景

AgentIAD可应用于各种工业生产线的质量检测环节,例如电子元件、汽车零部件、纺织品等产品的缺陷检测。该方法能够提高检测精度,降低漏检率,从而提升产品质量和生产效率。此外,AgentIAD的透明检查过程有助于分析缺陷原因,为改进生产工艺提供参考。未来,该方法有望扩展到其他需要精细视觉检查的领域,如医疗影像分析、遥感图像解译等。

📄 摘要(原文)

Industrial anomaly detection (IAD) is difficult due to the scarcity of normal reference samples and the subtle, localized nature of many defects. Single-pass vision-language models (VLMs) often overlook small abnormalities and lack explicit mechanisms to compare against canonical normal patterns. We propose AgentIAD, a tool-driven agentic framework that enables multi-stage visual inspection. The agent is equipped with a Perceptive Zoomer (PZ) for localized fine-grained analysis and a Comparative Retriever (CR) for querying normal exemplars when evidence is ambiguous. To teach these inspection behaviors, we construct structured perceptive and comparative trajectories from the MMAD dataset and train the model in two stages: supervised fine-tuning followed by reinforcement learning. A two-part reward design drives this process: a perception reward that supervises classification accuracy, spatial alignment, and type correctness, and a behavior reward that encourages efficient tool use. Together, these components enable the model to refine its judgment through step-wise observation, zooming, and verification. AgentIAD achieves a new state-of-the-art 97.62% classification accuracy on MMAD, surpassing prior MLLM-based approaches while producing transparent and interpretable inspection traces.