Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

作者: Jiacong Xu, Shao-Yuan Lo, Bardia Safaei, Vishal M. Patel, Isht Dwivedi

分类: cs.CV, cs.CL

发布日期: 2025-02-11 (更新: 2025-03-17)

备注: 19 pages, 10 figures, accepted by CVPR 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Anomaly-OV，用于零样本异常检测与推理，显著提升细粒度异常识别能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本异常检测 多模态大语言模型 视觉指令调优 特征匹配 异常推理 细粒度异常检测 双重观察机制

📋 核心要点

现有MLLM在细粒度异常检测与推理方面存在不足，缺乏专门的数据集和模型。
Anomaly-OV通过模仿人类视觉检查行为，利用双重观察特征匹配机制来突出异常区域。
实验表明，Anomaly-OV在异常检测和推理方面显著优于通用MLLM，并在医学和3D领域具有扩展潜力。

📝 摘要（中文）

本文针对零样本异常检测(ZSAD)这一新兴范式展开研究。与传统非监督异常检测需要大量正常样本训练模型不同，ZSAD更适用于数据受限的现实场景。尽管多模态大语言模型(MLLM)在各种视觉任务中展现出革命性的推理能力，但由于缺乏相应的数据集和基准，图像异常的推理仍未得到充分探索。为了促进异常检测与推理的研究，我们构建了首个视觉指令调优数据集Anomaly-Instruct-125k和评估基准VisA-D&R。通过基准测试，我们发现现有MLLM（如GPT-4o）无法准确检测和描述图像中细粒度的异常细节。为此，我们提出了Anomaly-OneVision (Anomaly-OV)，这是首个用于ZSAD和推理的专业视觉助手。受人类视觉检查行为的启发，Anomaly-OV利用双重观察特征匹配(LTFM)机制自适应地选择和强调异常视觉tokens。大量实验表明，Anomaly-OV在检测和推理方面均优于先进的通用模型。此外，还提供了医学和3D异常检测的扩展，以供未来研究。

🔬 方法详解

问题定义：论文旨在解决零样本异常检测（ZSAD）中，现有通用多模态大语言模型（MLLM）无法准确检测和推理图像中细粒度异常细节的问题。现有方法依赖大量正常样本进行训练，不适用于数据受限的场景，并且通用MLLM缺乏对异常的专门知识和针对性设计。

核心思路：论文的核心思路是模仿人类视觉检查的行为，通过“双重观察”机制，自适应地选择和强调图像中的异常视觉tokens。这种方法旨在让模型更专注于图像中与正常模式不同的区域，从而提高异常检测和推理的准确性。

技术框架：Anomaly-OV的整体框架包含以下几个主要模块：1) 图像编码器：用于提取图像的视觉特征。2) 双重观察特征匹配（LTFM）模块：这是核心模块，它首先对图像进行初步观察，然后根据初步观察的结果，自适应地选择需要重点关注的区域进行第二次观察，并通过特征匹配来突出异常区域。3) 大语言模型（LLM）：接收视觉特征和文本指令，进行异常检测和推理。整个流程是，输入图像和指令，图像编码器提取特征，LTFM模块突出异常特征，LLM基于这些特征进行推理，最终输出异常检测结果和解释。

关键创新：Anomaly-OV的关键创新在于提出的双重观察特征匹配（LTFM）机制。与传统的单次观察方法不同，LTFM允许模型根据初步观察的结果，动态地调整关注区域，从而更有效地捕捉细粒度的异常信息。这种机制模仿了人类在视觉检查中的行为，提高了模型对异常的敏感性。

关键设计：LTFM模块的关键设计包括：1) 自适应区域选择：根据初步观察的特征，选择信息量最大的区域进行第二次观察。2) 特征匹配：通过计算两次观察的特征之间的相似度，突出显示异常区域。3) 损失函数：论文可能使用了对比损失或三元组损失等，来训练LTFM模块，使其能够更好地区分正常和异常区域的特征。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Anomaly-OV在VisA-D&R基准测试中，异常检测和推理性能显著优于现有的通用MLLM，例如GPT-4o。具体的性能提升数据需要在论文中查找，但摘要中明确指出是“significant improvements”。此外，论文还展示了Anomaly-OV在医学和3D异常检测领域的扩展潜力，表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于工业质检、医疗影像分析、安全监控等领域。例如，在工业生产线上，Anomaly-OV可以自动检测产品表面的缺陷；在医疗影像分析中，可以辅助医生诊断病灶；在安全监控中，可以识别异常行为。该研究有望降低人工检测成本，提高检测效率和准确性，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Zero-Shot Anomaly Detection (ZSAD) is an emerging AD paradigm. Unlike the traditional unsupervised AD setting that requires a large number of normal samples to train a model, ZSAD is more practical for handling data-restricted real-world scenarios. Recently, Multimodal Large Language Models (MLLMs) have shown revolutionary reasoning capabilities in various vision tasks. However, the reasoning of image abnormalities remains underexplored due to the lack of corresponding datasets and benchmarks. To facilitate research in AD & reasoning, we establish the first visual instruction tuning dataset, Anomaly-Instruct-125k, and the evaluation benchmark, VisA-D&R. Through investigation with our benchmark, we reveal that current MLLMs like GPT-4o cannot accurately detect and describe fine-grained anomalous details in images. To address this, we propose Anomaly-OneVision (Anomaly-OV), the first specialist visual assistant for ZSAD and reasoning. Inspired by human behavior in visual inspection, Anomaly-OV leverages a Look-Twice Feature Matching (LTFM) mechanism to adaptively select and emphasize abnormal visual tokens. Extensive experiments demonstrate that Anomaly-OV achieves significant improvements over advanced generalist models in both detection and reasoning. Extensions to medical and 3D AD are provided for future study. The link to our project page: https://xujiacong.github.io/Anomaly-OV/

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理