IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
作者: Rongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao
分类: cs.CV
发布日期: 2026-05-20
💡 一句话要点
提出IndusAgent,利用工具增强Agent解决开放词汇工业异常检测问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业异常检测 多模态大语言模型 工具增强 强化学习 零样本学习
📋 核心要点
- 现有MLLM在开放词汇工业异常检测中,受限于领域不匹配推理和结构推断幻觉。
- IndusAgent通过工具增强,动态编排区域裁剪、特征增强和先验检索等工具,解决视觉模糊性。
- 引入门控强化学习,联合优化异常分类、定位精度、异常类型推理和工具使用效率。
📝 摘要(中文)
多模态大型语言模型(MLLM)在桥接视觉感知和文本推理方面表现出卓越的能力,实现了跨各种工业场景的零样本理解。然而,它们在开放词汇工业异常检测(IAD)中的性能通常受到领域不匹配的推理和虚构的结构推断的限制。为了解决这些挑战,我们提出了IndusAgent,一个工具增强的Agent框架,用于开放词汇IAD。具体来说,我们首先构建Indus-CoT,一个结构化数据集,它集成了全局视觉观察、高分辨率局部补丁和专家正常先验,为在严格的工业检查轨迹上微调模型提供监督。在此基础上,IndusAgent动态地编排一组外部工具,包括动态区域裁剪、高频特征增强和先验检索,从而使Agent能够主动解决视觉模糊性并解耦细微的异常。此外,我们引入了一个门控强化学习目标,该目标联合优化异常分类、定位精度、异常类型推理和高效的工具使用,确保仅在有利时才调用工具。在包括MVTec-AD、VisA、MPDD、DTD和SDD在内的五个工业异常基准上的广泛评估表明,IndusAgent在所有现有方法中实现了最先进的零样本性能,验证了我们的鲁棒性和泛化能力。
🔬 方法详解
问题定义:论文旨在解决开放词汇工业异常检测(Open-Vocabulary Industrial Anomaly Detection, IAD)问题。现有方法,特别是基于多模态大型语言模型(MLLM)的方法,在IAD任务中面临两个主要痛点:一是领域不匹配的推理,即模型在通用领域训练的知识难以直接应用于特定工业场景;二是结构推断幻觉,即模型会错误地推断出不存在的结构信息,导致误判。
核心思路:论文的核心思路是利用工具增强的Agent框架,使模型能够主动地解决视觉模糊性,并解耦细微的异常。通过引入外部工具,如动态区域裁剪、高频特征增强和先验检索,Agent可以更精确地分析图像,并结合专家知识进行推理,从而提高异常检测的准确性和可靠性。
技术框架:IndusAgent的整体框架包含以下几个主要模块:1) Indus-CoT数据集:用于微调模型,包含全局视觉观察、高分辨率局部补丁和专家正常先验。2) Agent:负责动态地编排和调用外部工具。3) 外部工具集:包括动态区域裁剪(Dynamic Region Cropping)、高频特征增强(High-Frequency Feature Enhancement)和先验检索(Prior Retrieval)。4) 门控强化学习模块:用于优化Agent的工具使用策略,确保工具仅在有利时被调用。
关键创新:论文的关键创新在于以下几个方面:1) 工具增强的Agent框架:通过引入外部工具,显著提升了模型在复杂工业场景下的推理能力。2) Indus-CoT数据集:提供了一个结构化的、包含专家知识的训练数据集,有助于模型更好地理解工业场景。3) 门控强化学习目标:有效地优化了Agent的工具使用策略,提高了工具使用的效率和效果。
关键设计:1) 动态区域裁剪:允许Agent聚焦于图像中可能存在异常的区域,减少无关信息的干扰。2) 高频特征增强:通过增强图像的高频成分,突出显示细微的异常。3) 先验检索:从Indus-CoT数据集中检索与当前图像相似的正常样本,为异常检测提供参考。4) 门控强化学习:使用奖励函数来鼓励Agent进行准确的异常分类、定位和类型推理,并惩罚不必要的工具使用。具体而言,奖励函数综合考虑了分类准确率、定位精度、异常类型推理的正确性以及工具使用的效率。
🖼️ 关键图片
📊 实验亮点
IndusAgent在五个工业异常检测基准测试(MVTec-AD, VisA, MPDD, DTD, SDD)上均取得了最先进的零样本性能(State-of-the-Art Zero-Shot Performance)。这表明IndusAgent具有很强的鲁棒性和泛化能力,能够有效地应用于各种不同的工业场景,无需针对特定场景进行额外的训练。
🎯 应用场景
该研究成果可广泛应用于工业生产线的质量检测、设备故障诊断、安全监控等领域。通过自动检测产品缺陷、预测设备故障,可以显著提高生产效率、降低生产成本,并保障生产安全。未来,该技术有望进一步扩展到智能制造、智慧城市等领域,为各行业带来智能化升级。
📄 摘要(原文)
Multimodal large language models (MLLMs) have shown remarkable capability in bridging visual perception and textual reasoning, enabling zero-shot understanding across diverse industrial scenarios. However, their performance in open-vocabulary industrial anomaly detection (IAD) is often limited by domain-misaligned reasoning and hallucinated structural inferences. To address these challenges, we propose \textbf{IndusAgent}, a tool-augmented agentic framework for open-vocabulary IAD. Specifically, we first construct \textbf{Indus-CoT}, a structured dataset that integrates global visual observations, high-resolution local patches, and expert normalcy priors, providing supervision for fine-tuning the model on rigorous industrial inspection trajectories. Building on this, IndusAgent dynamically orchestrates a set of external tools, including dynamic region cropping, high-frequency feature enhancement, and prior retrieval, thus enabling the agent to actively resolve visual ambiguities and disentangle subtle anomalies. Furthermore, we introduce a gated reinforcement learning objective that jointly optimizes anomaly classification, localization accuracy, anomaly type reasoning, and efficient tool usage, ensuring that tool invocation occurs only when beneficial. Extensive evaluations on five industrial anomaly benchmarks, including MVTec-AD, VisA, MPDD, DTD, and SDD, demonstrate that IndusAgent achieves state-of-the-art zero-shot performance among all existing methods, validating our robustness and generalization capacity.