OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning

作者: Shifang Zhao, Yiheng Lin, Lu Han, Yao Zhao, Yunchao Wei

分类: cs.CV

发布日期: 2025-05-28

💡 一句话要点

OmniAD：通过多模态推理检测和理解工业异常

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 多模态推理 视觉文本融合 异常理解 Text-as-Mask Encoding

📋 核心要点

现有异常检测方法缺乏结合工业知识的详细分析能力，难以提供细粒度的理解。
OmniAD通过结合视觉和文本推理，利用Text-as-Mask Encoding进行异常检测，并使用视觉引导的文本推理进行综合分析。
OmniAD采用监督微调和强化学习相结合的训练策略，并设计了奖励函数，在多个异常检测基准测试中取得了优异的性能。

📝 摘要（中文）

本文提出了一种名为OmniAD的新框架，旨在统一异常检测和理解，从而实现细粒度的分析。OmniAD是一个多模态推理器，结合了视觉和文本推理过程。视觉推理通过利用Text-as-Mask Encoding，以文本生成的方式执行异常检测，无需手动选择阈值，从而提供详细的检查。随后，视觉引导的文本推理通过整合视觉感知进行全面的分析。为了增强少样本泛化能力，采用了一种集成的训练策略，将监督微调（SFT）与强化学习（GRPO）相结合，并结合了三个复杂的奖励函数。实验结果表明，OmniAD在MMAD基准测试中取得了79.1的性能，超过了Qwen2.5-VL-7B和GPT-4o等模型。它还在多个异常检测基准测试中表现出强大的结果。这些结果突出了增强视觉感知对于异常理解中有效推理的重要性。所有代码和模型都将公开。

🔬 方法详解

问题定义：工业异常检测不仅需要识别异常，更需要理解异常的原因和性质，以便采取相应的措施。现有的异常检测方法通常只关注异常的检测，而忽略了对异常的深入分析和解释，缺乏对工业领域知识的有效利用。此外，手动选择阈值进行异常判断的方式缺乏灵活性和泛化能力。

核心思路：OmniAD的核心思路是将视觉和文本信息融合起来，通过多模态推理来实现异常的检测和理解。利用视觉信息进行细粒度的异常定位，并结合文本信息进行知识推理和原因分析。通过Text-as-Mask Encoding，将异常检测转化为文本生成任务，避免了手动选择阈值的过程。

技术框架：OmniAD框架主要包含两个阶段：视觉推理和视觉引导的文本推理。在视觉推理阶段，利用Text-as-Mask Encoding对图像进行编码，并通过文本生成的方式进行异常检测。在视觉引导的文本推理阶段，将视觉信息融入到文本推理过程中，进行全面的异常分析。整个框架采用集成的训练策略，结合监督微调（SFT）和强化学习（GRPO）来提高模型的性能和泛化能力。

关键创新：OmniAD的关键创新在于：1) 提出了Text-as-Mask Encoding，将异常检测转化为文本生成任务，避免了手动选择阈值；2) 提出了视觉引导的文本推理，将视觉信息融入到文本推理过程中，提高了异常分析的准确性和全面性；3) 采用了集成的训练策略，结合监督微调和强化学习，提高了模型的性能和泛化能力。与现有方法相比，OmniAD能够提供更细粒度、更全面的异常分析和解释。

关键设计：在Text-as-Mask Encoding中，使用预训练的语言模型作为文本生成器，并设计了特定的prompt来引导模型生成描述异常的文本。在视觉引导的文本推理中，使用注意力机制将视觉信息融入到文本推理过程中。在训练过程中，设计了三个奖励函数来指导强化学习，包括准确性奖励、完整性奖励和一致性奖励。具体参数设置和网络结构细节未在摘要中详细说明，需参考论文全文。

🖼️ 关键图片

📊 实验亮点

OmniAD在MMAD基准测试中取得了79.1的性能，显著超过了Qwen2.5-VL-7B和GPT-4o等先进模型。此外，OmniAD在多个异常检测基准测试中也表现出强大的性能，证明了其有效性和泛化能力。这些实验结果表明，增强视觉感知对于异常理解中的有效推理至关重要。

🎯 应用场景

OmniAD可应用于各种工业场景，例如制造业的质量控制、电力系统的故障诊断、交通运输的安全监控等。通过自动检测和理解异常，可以帮助企业及时发现潜在问题，减少损失，提高生产效率和安全性。该研究的成果有助于推动工业智能化发展，实现更高效、更可靠的生产运营。

📄 摘要（原文）

While anomaly detection has made significant progress, generating detailed analyses that incorporate industrial knowledge remains a challenge. To address this gap, we introduce OmniAD, a novel framework that unifies anomaly detection and understanding for fine-grained analysis. OmniAD is a multimodal reasoner that combines visual and textual reasoning processes. The visual reasoning provides detailed inspection by leveraging Text-as-Mask Encoding to perform anomaly detection through text generation without manually selected thresholds. Following this, Visual Guided Textual Reasoning conducts comprehensive analysis by integrating visual perception. To enhance few-shot generalization, we employ an integrated training strategy that combines supervised fine-tuning (SFT) with reinforcement learning (GRPO), incorporating three sophisticated reward functions. Experimental results demonstrate that OmniAD achieves a performance of 79.1 on the MMAD benchmark, surpassing models such as Qwen2.5-VL-7B and GPT-4o. It also shows strong results across multiple anomaly detection benchmarks. These results highlight the importance of enhancing visual perception for effective reasoning in anomaly understanding. All codes and models will be publicly available.

OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理