AnomalyAgent: Training-Free Agentic Models for Zero-/Few-Shot Anomaly Detection

📄 arXiv: 2605.30140v1 📥 PDF

作者: Yi Zhang, Jiawen Zhu, Lele Fu, Guansong Pang

分类: cs.CV

发布日期: 2026-05-28


💡 一句话要点

提出AnomalyAgent,一种无需训练的Agentic模型,用于零/少样本异常检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异常检测 多模态大语言模型 零样本学习 Agentic模型 视觉-语言模型

📋 核心要点

  1. 现有零/少样本异常检测方法依赖视觉-语言模型,需大量辅助数据训练以适应异常检测,且推理依赖视觉-文本嵌入相似度,缺乏深度上下文理解的推理能力。
  2. AnomalyAgent利用多模态大语言模型(MLLM)的推理和泛化能力,构建无需训练的agentic框架,通过异常中心工具集和定制记忆模块实现零/少样本异常检测。
  3. 实验表明,AnomalyAgent在多种异常类型检测上优于现有无需训练的VLM方法和通用agentic方法,展示了其在零样本和少样本异常检测中的泛化能力。

📝 摘要(中文)

本文提出AnomalyAgent,一种新颖的无需训练的agentic框架,利用多模态大型语言模型(MLLM)的先进推理和泛化能力进行异常检测。该框架包含:1) 一个全面的以异常为中心的工具集,支持零样本设置下自适应的MLLM驱动的agentic异常推理;2) 一个定制的记忆模块,通过少样本、上下文参考示例来支持异常推理。评估范围扩展到对物流和制造环境中更多样化的异常类型(如逻辑/上下文异常)的检测,而不仅仅是常用基准测试中简单异常(如裂缝、凹痕和明显病变等表面缺陷)的检测。大量实验结果表明,与基于VLM的无需训练的异常检测方法和通用agentic方法相比,AnomalyAgent取得了显著更好的性能,突出了其在零样本和少样本异常检测设置中的卓越泛化能力。

🔬 方法详解

问题定义:现有基于视觉-语言模型(VLM)的零/少样本异常检测方法,虽然在一定程度上实现了跨数据集的泛化,但需要大量的辅助数据训练来使VLM适应异常检测任务。此外,这些方法主要依赖于视觉-文本嵌入相似度进行异常评分,缺乏对复杂异常进行深入上下文理解和推理的能力,尤其是在需要逻辑或上下文推理的场景下表现不佳。

核心思路:AnomalyAgent的核心思路是利用多模态大型语言模型(MLLM)强大的推理和泛化能力,构建一个无需训练的agentic框架。通过赋予MLLM特定的工具和记忆能力,使其能够像智能体一样自主地进行异常推理和检测,从而避免了对大量训练数据的依赖,并提升了对复杂异常的检测能力。

技术框架:AnomalyAgent的整体框架包含以下几个主要模块:1) 异常中心工具集:提供了一系列专门为异常检测设计的工具,例如图像分析、文本描述生成、知识库查询等,使MLLM能够从多个角度理解和分析输入数据。2) 定制记忆模块:用于存储和检索少样本的参考示例,为MLLM提供上下文信息,帮助其更好地理解和判断异常。3) MLLM驱动的Agentic推理:MLLM作为智能体,根据输入数据和工具集,自主地进行推理和决策,最终输出异常检测结果。

关键创新:AnomalyAgent的关键创新在于其无需训练的agentic框架,以及对MLLM能力的充分利用。与传统的需要大量训练数据的方法不同,AnomalyAgent通过赋予MLLM特定的工具和记忆能力,使其能够直接在新的数据集上进行异常检测,从而实现了真正的零/少样本学习。此外,AnomalyAgent的agentic推理方式也使其能够更好地处理需要上下文理解和逻辑推理的复杂异常。

关键设计:AnomalyAgent的关键设计包括:1) 工具集的设计:工具集需要根据具体的异常检测任务进行定制,以提供MLLM所需的必要信息和能力。2) 记忆模块的设计:记忆模块需要能够有效地存储和检索参考示例,并将其以适当的方式呈现给MLLM。3) MLLM的提示工程:需要设计合适的提示语,引导MLLM进行正确的推理和决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AnomalyAgent在多个异常检测数据集上取得了显著的性能提升。例如,在逻辑/上下文异常检测任务中,AnomalyAgent的性能优于现有的无需训练的VLM方法和通用agentic方法,证明了其在复杂异常检测方面的优势。具体性能数据在论文中有详细展示。

🎯 应用场景

AnomalyAgent具有广泛的应用前景,可用于工业制造中的产品缺陷检测、物流领域的异常事件识别、医疗影像分析中的疾病诊断等。其无需训练的特性使其能够快速部署到新的应用场景中,降低了异常检测的成本和门槛。未来,该方法有望应用于更复杂的异常检测任务,例如金融欺诈检测、网络安全威胁识别等。

📄 摘要(原文)

Benefiting from generalizability of vision-language models (VLMs) such as CLIP, many zero-/few-shot anomaly detection (AD) approaches have achieved impressive detection performance across various datasets. Nevertheless, they require substantial training on large auxiliary datasets to adapt VLMs to anomaly detection, and their inference largely relies on visual-text embedding similarity-based anomaly scores, lacking reasoning abilities to detect complex anomalies that require in-depth contextual understanding. To address this limitation, we propose \textbf{AnomalyAgent}, a novel training-free, agentic framework that leverages the advanced reasoning and generalization capabilities of multimodal large language models (MLLMs) for anomaly detection. The key ingredients include \textbf{1)} a comprehensive anomaly-centric toolset that enables adaptive MLLM-driven, agentic anomaly reasoning in zero-shot settings, and \textbf{2)} a customized memory module that grounds anomaly reasoning with few-shot, in-context reference examples. We extend evaluation beyond the detection of simple anomalies (e.g., surface defects like cracks and dents and clear lesions) in widely used benchmarks to more diverse types of anomalies such as logical/contextual anomalies in logistics and manufacturing settings. Extensive experiment results demonstrate that our AnomalyAgent achieves substantially better performance compared to training-free VLM-based AD and generic agentic methods, highlighting its superior generalization capability in both zero-shot and few-shot anomaly detection settings. The code implementation can be find at this address.