Foundation Models and Transformers for Anomaly Detection: A Survey

📄 arXiv: 2507.15905v1 📥 PDF

作者: Mouïn Ben Ammar, Arturo Mendoza, Nacim Belkhir, Antoine Manzanera, Gianni Franchi

分类: cs.LG, cs.AI

发布日期: 2025-07-21

DOI: 10.1016/j.inffus.2025.103517


💡 一句话要点

综述Transformer与Foundation模型在视觉异常检测中的应用与进展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉异常检测 Transformer Foundation模型 深度学习 注意力机制

📋 核心要点

  1. 现有视觉异常检测方法在处理长程依赖、上下文信息建模以及数据稀缺问题时面临挑战。
  2. 论文核心思想是利用Transformer的全局感受野和Foundation模型的大规模预训练能力,提升异常检测的鲁棒性和泛化性。
  3. 综述总结了基于重建、基于特征和零/少样本等不同类型的异常检测方法,并分析了它们的优缺点和未来发展趋势。

📝 摘要(中文)

本综述探讨了Transformer和Foundation模型在推动视觉异常检测(VAD)方面的变革性作用,这与深度学习的发展相一致。我们探索了这些架构如何通过其全局感受野和适应性来应对长程依赖建模、上下文建模和数据稀缺等挑战。该综述将VAD方法分为基于重建、基于特征和零/少样本方法,突出了Foundation模型带来的范式转变。通过整合注意力机制和利用大规模预训练,Transformer和Foundation模型能够实现更鲁棒、可解释和可扩展的异常检测解决方案。这项工作全面回顾了最先进的技术、它们的优势、局限性以及利用这些架构进行VAD的新兴趋势。

🔬 方法详解

问题定义:视觉异常检测旨在识别与正常模式显著不同的图像或视频帧。现有方法在处理复杂场景、长程依赖关系以及数据稀缺的情况下表现不佳,难以准确捕捉异常模式。

核心思路:利用Transformer架构的全局感受野和注意力机制,能够更好地捕捉图像中的长程依赖关系和上下文信息。同时,借助Foundation模型的大规模预训练能力,可以学习到更通用的特征表示,从而提高异常检测的泛化能力。

技术框架:该综述将VAD方法分为三类:基于重建的方法(例如,使用自编码器重建正常样本,异常样本重建误差较大),基于特征的方法(提取图像特征,然后使用分类器或聚类方法区分正常和异常样本),以及零/少样本方法(利用少量甚至没有异常样本进行训练)。Transformer和Foundation模型可以应用于这三种框架中,例如,使用Transformer作为自编码器的编码器和解码器,或者使用预训练的Foundation模型提取图像特征。

关键创新:关键创新在于将Transformer和Foundation模型引入视觉异常检测领域,利用它们的优势来解决传统方法的局限性。Transformer的注意力机制能够更好地捕捉图像中的上下文信息,而Foundation模型的大规模预训练能够提供更通用的特征表示。

关键设计:具体的设计细节取决于所采用的VAD框架。例如,在使用Transformer作为自编码器时,需要设计合适的Transformer结构和损失函数(例如,均方误差或感知损失)来训练模型。在使用预训练的Foundation模型时,需要选择合适的预训练模型和微调策略,以适应特定的异常检测任务。

📊 实验亮点

该综述总结了当前最先进的基于Transformer和Foundation模型的视觉异常检测方法,并分析了它们的优缺点。虽然没有提供具体的实验数据,但综述强调了这些方法在鲁棒性、可解释性和可扩展性方面的优势,并指出了未来的研究方向,例如如何更好地利用大规模无标签数据进行预训练,以及如何设计更有效的异常检测算法。

🎯 应用场景

该研究成果可广泛应用于工业质检、医疗影像分析、视频监控等领域。例如,在工业质检中,可以利用该方法检测产品表面的缺陷;在医疗影像分析中,可以辅助医生诊断疾病;在视频监控中,可以及时发现异常事件,具有重要的实际应用价值和潜在的社会效益。

📄 摘要(原文)

In line with the development of deep learning, this survey examines the transformative role of Transformers and foundation models in advancing visual anomaly detection (VAD). We explore how these architectures, with their global receptive fields and adaptability, address challenges such as long-range dependency modeling, contextual modeling and data scarcity. The survey categorizes VAD methods into reconstruction-based, feature-based and zero/few-shot approaches, highlighting the paradigm shift brought about by foundation models. By integrating attention mechanisms and leveraging large-scale pre-training, Transformers and foundation models enable more robust, interpretable, and scalable anomaly detection solutions. This work provides a comprehensive review of state-of-the-art techniques, their strengths, limitations, and emerging trends in leveraging these architectures for VAD.