ZSG-IAD: A Multimodal Framework for Zero-Shot Grounded Industrial Anomaly Detection
作者: Qiuhui Chen, Jiaxiang Song, Shuai Tan, Weimin Zhong
分类: cs.CV
发布日期: 2026-04-20
💡 一句话要点
提出ZSG-IAD,用于零样本条件下的工业异常检测,并提供可解释的缺陷定位。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业异常检测 零样本学习 多模态融合 视觉语言模型 可解释性AI
📋 核心要点
- 现有工业异常检测方法缺乏可解释性,难以提供具有物理意义的缺陷证据来支撑决策。
- ZSG-IAD利用多模态信息和语言引导的两跳定位模块,生成结构化异常报告和像素级异常掩码,提升可解释性。
- 实验结果表明,ZSG-IAD在零样本工业异常检测任务上表现出色,并提供更透明、更具物理基础的解释。
📝 摘要(中文)
本文提出了一种多模态视觉-语言框架ZSG-IAD,用于零样本条件下的工业异常检测。针对现有基于深度学习的工业异常检测器通常表现为黑盒,难以用具有物理意义的缺陷证据来证明决策的问题,ZSG-IAD能够根据RGB图像、传感器图像和3D点云生成结构化的异常报告和像素级的异常掩码。ZSG-IAD引入了一个语言引导的两跳定位模块:(1)异常相关的句子从多模态特征中提取证据般的潜在槽位,产生粗略的空间支持;(2)选择的槽位通过通道-空间门控和一个轻量级解码器来调制特征图,从而产生精细的掩码。为了提高可靠性,我们进一步应用了具有可验证奖励的可执行规则GRPO,以促进结构化输出、异常区域一致性和推理-结论连贯性。在多个工业异常基准上的实验表明,该方法具有强大的零样本性能,并且比现有方法提供更透明、更具有物理基础的解释。我们将发布代码和注释,以支持未来对可信赖的工业异常检测系统的研究。
🔬 方法详解
问题定义:工业异常检测旨在识别生产过程中出现的缺陷或异常情况。现有基于深度学习的方法通常缺乏可解释性,难以提供缺陷的具体位置和原因,使得决策过程不透明,难以信任。此外,许多方法依赖于大量标注数据,难以适应新的缺陷类型,泛化能力有限。
核心思路:ZSG-IAD的核心思路是利用多模态信息(RGB图像、传感器图像、3D点云)和语言的先验知识,通过视觉-语言的联合推理,实现零样本条件下的异常检测和定位。该方法通过语言引导的两跳定位模块,将异常描述与视觉特征关联起来,从而生成可解释的异常报告和像素级掩码。
技术框架:ZSG-IAD的整体框架包含以下几个主要模块:1) 多模态特征提取模块,用于从RGB图像、传感器图像和3D点云中提取视觉特征;2) 语言引导的两跳定位模块,包含异常相关句子选择和特征槽位调制两个阶段,用于生成粗略和精细的异常掩码;3) 可执行规则GRPO模块,用于提高输出的结构化程度、异常区域一致性和推理-结论连贯性。
关键创新:ZSG-IAD的关键创新在于语言引导的两跳定位模块和可执行规则GRPO模块。两跳定位模块通过语言的引导,将异常描述与视觉特征关联起来,实现了零样本条件下的异常检测和定位。GRPO模块则通过可验证的奖励机制,促进了结构化输出和推理的连贯性,提高了结果的可靠性。
关键设计:两跳定位模块中,第一跳使用注意力机制选择与异常相关的句子,第二跳使用通道-空间门控机制,将选择的句子信息融入到特征图中,从而生成精细的异常掩码。GRPO模块使用可执行规则来定义奖励函数,例如异常区域一致性、推理-结论连贯性等,并通过强化学习来优化模型的输出。
🖼️ 关键图片
📊 实验亮点
ZSG-IAD在多个工业异常基准测试中表现出强大的零样本性能。与现有方法相比,ZSG-IAD能够提供更透明、更具有物理基础的解释,例如能够生成结构化的异常报告和像素级的异常掩码。实验结果表明,ZSG-IAD在零样本条件下的异常检测精度和定位精度均优于现有方法。
🎯 应用场景
ZSG-IAD可应用于各种工业生产线的质量检测环节,例如汽车制造、电子产品生产、纺织品制造等。该方法能够自动检测产品表面的缺陷、内部结构的异常,并提供缺陷的位置和原因,从而提高生产效率和产品质量。此外,ZSG-IAD的可解释性使得决策过程更加透明,有助于建立对自动化检测系统的信任。
📄 摘要(原文)
Deep learning-based industrial anomaly detectors often behave as black boxes, making it hard to justify decisions with physically meaningful defect evidence. We propose ZSG-IAD, a multimodal vision-language framework for zero-shot grounded industrial anomaly detection. Given RGB images, sensor images, and 3D point clouds, ZSG-IAD generates structured anomaly reports and pixel-level anomaly masks. ZSG-IAD introduces a language-guided two-hop grounding module: (1) anomaly-related sentences select evidence-like latent slots distilled from multimodal features, yielding coarse spatial support; (2) selected slots modulate feature maps via channel-spatial gating and a lightweight decoder to produce fine-grained masks. To improve reliability, we further apply Executable-Rule GRPO with verifiable rewards to promote structured outputs, anomaly-region consistency, and reasoning-conclusion coherence. Experiments across multiple industrial anomaly benchmarks show strong zero-shot performance and more transparent, physically grounded explanations than prior methods. We will release code and annotations to support future research on trustworthy industrial anomaly detection systems.