ZSG-IAD: A Multimodal Framework for Zero-Shot Grounded Industrial Anomaly Detection

作者: Qiuhui Chen, Jiaxiang Song, Shuai Tan, Weimin Zhong

分类: cs.CV

发布日期: 2026-04-20

💡 一句话要点

提出ZSG-IAD，用于零样本条件下的工业异常检测，并提供可解释的缺陷定位。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 零样本学习 多模态融合 视觉语言模型 可解释性AI

📋 核心要点

现有工业异常检测方法缺乏可解释性，难以提供具有物理意义的缺陷证据来支撑决策。
ZSG-IAD利用多模态信息和语言引导的两跳定位模块，生成结构化异常报告和像素级异常掩码，提升可解释性。
实验结果表明，ZSG-IAD在零样本工业异常检测任务上表现出色，并提供更透明、更具物理基础的解释。

📝 摘要（中文）

本文提出了一种多模态视觉-语言框架ZSG-IAD，用于零样本条件下的工业异常检测。针对现有基于深度学习的工业异常检测器通常表现为黑盒，难以用具有物理意义的缺陷证据来证明决策的问题，ZSG-IAD能够根据RGB图像、传感器图像和3D点云生成结构化的异常报告和像素级的异常掩码。ZSG-IAD引入了一个语言引导的两跳定位模块：（1）异常相关的句子从多模态特征中提取证据般的潜在槽位，产生粗略的空间支持；（2）选择的槽位通过通道-空间门控和一个轻量级解码器来调制特征图，从而产生精细的掩码。为了提高可靠性，我们进一步应用了具有可验证奖励的可执行规则GRPO，以促进结构化输出、异常区域一致性和推理-结论连贯性。在多个工业异常基准上的实验表明，该方法具有强大的零样本性能，并且比现有方法提供更透明、更具有物理基础的解释。我们将发布代码和注释，以支持未来对可信赖的工业异常检测系统的研究。

🔬 方法详解

问题定义：工业异常检测旨在识别生产过程中出现的缺陷或异常情况。现有基于深度学习的方法通常缺乏可解释性，难以提供缺陷的具体位置和原因，使得决策过程不透明，难以信任。此外，许多方法依赖于大量标注数据，难以适应新的缺陷类型，泛化能力有限。

核心思路：ZSG-IAD的核心思路是利用多模态信息（RGB图像、传感器图像、3D点云）和语言的先验知识，通过视觉-语言的联合推理，实现零样本条件下的异常检测和定位。该方法通过语言引导的两跳定位模块，将异常描述与视觉特征关联起来，从而生成可解释的异常报告和像素级掩码。

技术框架：ZSG-IAD的整体框架包含以下几个主要模块：1) 多模态特征提取模块，用于从RGB图像、传感器图像和3D点云中提取视觉特征；2) 语言引导的两跳定位模块，包含异常相关句子选择和特征槽位调制两个阶段，用于生成粗略和精细的异常掩码；3) 可执行规则GRPO模块，用于提高输出的结构化程度、异常区域一致性和推理-结论连贯性。

关键创新：ZSG-IAD的关键创新在于语言引导的两跳定位模块和可执行规则GRPO模块。两跳定位模块通过语言的引导，将异常描述与视觉特征关联起来，实现了零样本条件下的异常检测和定位。GRPO模块则通过可验证的奖励机制，促进了结构化输出和推理的连贯性，提高了结果的可靠性。

关键设计：两跳定位模块中，第一跳使用注意力机制选择与异常相关的句子，第二跳使用通道-空间门控机制，将选择的句子信息融入到特征图中，从而生成精细的异常掩码。GRPO模块使用可执行规则来定义奖励函数，例如异常区域一致性、推理-结论连贯性等，并通过强化学习来优化模型的输出。

🖼️ 关键图片

📊 实验亮点

ZSG-IAD在多个工业异常基准测试中表现出强大的零样本性能。与现有方法相比，ZSG-IAD能够提供更透明、更具有物理基础的解释，例如能够生成结构化的异常报告和像素级的异常掩码。实验结果表明，ZSG-IAD在零样本条件下的异常检测精度和定位精度均优于现有方法。

🎯 应用场景

ZSG-IAD可应用于各种工业生产线的质量检测环节，例如汽车制造、电子产品生产、纺织品制造等。该方法能够自动检测产品表面的缺陷、内部结构的异常，并提供缺陷的位置和原因，从而提高生产效率和产品质量。此外，ZSG-IAD的可解释性使得决策过程更加透明，有助于建立对自动化检测系统的信任。

📄 摘要（原文）

Deep learning-based industrial anomaly detectors often behave as black boxes, making it hard to justify decisions with physically meaningful defect evidence. We propose ZSG-IAD, a multimodal vision-language framework for zero-shot grounded industrial anomaly detection. Given RGB images, sensor images, and 3D point clouds, ZSG-IAD generates structured anomaly reports and pixel-level anomaly masks. ZSG-IAD introduces a language-guided two-hop grounding module: (1) anomaly-related sentences select evidence-like latent slots distilled from multimodal features, yielding coarse spatial support; (2) selected slots modulate feature maps via channel-spatial gating and a lightweight decoder to produce fine-grained masks. To improve reliability, we further apply Executable-Rule GRPO with verifiable rewards to promote structured outputs, anomaly-region consistency, and reasoning-conclusion coherence. Experiments across multiple industrial anomaly benchmarks show strong zero-shot performance and more transparent, physically grounded explanations than prior methods. We will release code and annotations to support future research on trustworthy industrial anomaly detection systems.

ZSG-IAD: A Multimodal Framework for Zero-Shot Grounded Industrial Anomaly Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理