KKA: Improving Vision Anomaly Detection through Anomaly-related Knowledge from Large Language Models

📄 arXiv: 2502.14880v1 📥 PDF

作者: Dong Chen, Zhengqing Hu, Peiguang Fan, Yueting Zhuang, Yafei Li, Qidong Liu, Xiaoheng Jiang, Mingliang Xu

分类: cs.CV, cs.AI

发布日期: 2025-02-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出KKA:利用大语言模型的异常相关知识提升视觉异常检测性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉异常检测 大语言模型 知识增强 异常生成 无监督学习

📋 核心要点

  1. 现有视觉异常检测方法难以区分正常和异常样本,主要原因是异常样本的多样性和生成异常样本的随机性。
  2. KKA方法利用大语言模型的先验知识,生成更具真实感和区分度的异常样本,并区分简单和困难异常。
  3. 实验结果表明,KKA方法能够显著提升各种视觉异常检测器的性能,同时保持较低的生成成本。

📝 摘要(中文)

在无监督环境下,视觉异常检测常常难以区分正常样本和异常样本,这是由于异常的多样性导致的。为了解决这个问题,越来越多的研究开始关注生成异常样本,以帮助检测器学习更有效的正常样本和异常样本之间的边界。然而,由于生成的异常样本通常来源于随机因素,因此它们往往缺乏真实感。此外,随机生成的异常样本通常在构建有效边界方面提供的支持有限,因为大多数异常样本与正常样本差异很大,并且远离边界。为了解决这些挑战,我们提出了关键知识增强(KKA)方法,该方法从大型语言模型(LLM)中提取与异常相关的知识。更具体地说,KKA利用LLM的广泛先验知识,基于正常样本生成有意义的异常样本。然后,KKA根据生成的异常样本与正常样本的相似性,将它们分为简单异常和困难异常。简单异常与正常样本有显著差异,而困难异常与正常样本非常相似。KKA迭代更新生成的异常样本,并逐渐增加困难异常的比例,使检测器能够学习更有效的边界。实验结果表明,该方法在保持低生成成本的同时,显著提高了各种视觉异常检测器的性能。

🔬 方法详解

问题定义:视觉异常检测旨在识别与正常模式不同的图像或视频帧。现有的无监督异常检测方法依赖于学习正常数据的分布,然后将偏离该分布的样本视为异常。然而,由于异常的多样性,以及生成异常样本时缺乏对真实世界异常的理解,导致检测器难以学习有效的正常/异常边界。随机生成的异常样本通常与正常样本差异过大,对边界学习的帮助有限。

核心思路:KKA的核心思路是利用大语言模型(LLM)的先验知识,生成更具语义意义和真实感的异常样本。通过LLM,可以获得与特定场景相关的异常描述,从而生成更符合实际情况的异常样本。此外,KKA还区分了简单异常和困难异常,并逐步增加困难异常的比例,以提高检测器对边界附近异常的敏感性。

技术框架:KKA方法主要包含以下几个阶段:1) 异常知识提取:利用LLM,基于正常样本的描述,生成相关的异常描述。2) 异常样本生成:基于LLM提供的异常描述,生成对应的异常样本。3) 异常样本分类:根据生成的异常样本与正常样本的相似度,将其分为简单异常和困难异常。4) 迭代训练:使用生成的异常样本训练异常检测器,并逐步增加困难异常的比例,以优化检测器的性能。

关键创新:KKA的关键创新在于利用大语言模型来指导异常样本的生成。与传统的随机生成方法相比,KKA生成的异常样本更具语义意义和真实感,能够更好地帮助检测器学习正常/异常边界。此外,区分简单和困难异常,并逐步增加困难异常的比例,也是一个重要的创新点,能够提高检测器对边界附近异常的敏感性。

关键设计:KKA的关键设计包括:1) 如何有效地利用LLM生成高质量的异常描述。这可能涉及到prompt工程,以及选择合适的LLM。2) 如何衡量生成异常样本与正常样本的相似度,从而区分简单异常和困难异常。这可能涉及到特征提取和相似度度量方法的选择。3) 如何控制简单异常和困难异常的比例,以优化训练过程。这可能涉及到超参数的调整和实验验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KKA方法能够显著提高各种视觉异常检测器的性能。例如,在MVTec AD数据集上,KKA方法将异常检测的AUROC指标提升了多个百分点,超过了现有的基于生成对抗网络(GAN)的方法。此外,KKA方法在保持较低生成成本的同时,实现了性能的显著提升。

🎯 应用场景

KKA方法具有广泛的应用前景,例如工业质检、医疗影像分析、自动驾驶安全监控等领域。在工业质检中,可以利用KKA生成各种缺陷样本,提高缺陷检测的准确率。在医疗影像分析中,可以生成罕见疾病的影像样本,辅助医生进行诊断。在自动驾驶安全监控中,可以生成各种危险场景,提高自动驾驶系统的安全性。

📄 摘要(原文)

Vision anomaly detection, particularly in unsupervised settings, often struggles to distinguish between normal samples and anomalies due to the wide variability in anomalies. Recently, an increasing number of studies have focused on generating anomalies to help detectors learn more effective boundaries between normal samples and anomalies. However, as the generated anomalies are often derived from random factors, they frequently lack realism. Additionally, randomly generated anomalies typically offer limited support in constructing effective boundaries, as most differ substantially from normal samples and lie far from the boundary. To address these challenges, we propose Key Knowledge Augmentation (KKA), a method that extracts anomaly-related knowledge from large language models (LLMs). More specifically, KKA leverages the extensive prior knowledge of LLMs to generate meaningful anomalies based on normal samples. Then, KKA classifies the generated anomalies as easy anomalies and hard anomalies according to their similarity to normal samples. Easy anomalies exhibit significant differences from normal samples, whereas hard anomalies closely resemble normal samples. KKA iteratively updates the generated anomalies, and gradually increasing the proportion of hard anomalies to enable the detector to learn a more effective boundary. Experimental results show that the proposed method significantly improves the performance of various vision anomaly detectors while maintaining low generation costs. The code for CMG can be found at https://github.com/Anfeather/KKA.