One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection

📄 arXiv: 2601.05552v1 📥 PDF

作者: Bin-Bin Gao, Chengjie Wang

分类: cs.CV

发布日期: 2026-01-09

备注: 20 pages, 5 figures, 34 tabels

🔗 代码/项目: GITHUB


💡 一句话要点

UniADet:一种通用的、无语言依赖的视觉异常检测基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉异常检测 基础模型 零样本学习 少样本学习 解耦学习 通用性 工业检测

📋 核心要点

  1. 现有视觉-语言模型在异常检测中面临提示工程复杂、自适应模块繁琐等问题,限制了其通用性和灵活性。
  2. UniADet通过解耦分类和分割任务,以及跨层级特征,学习独立的权重,从而简化了模型结构。
  3. UniADet在多个真实世界异常检测基准上,显著超越了现有零样本/少样本方法,甚至首次超越了全样本方法。

📝 摘要(中文)

本文提出了一种用于通用视觉异常检测(UniADet)的简单、通用且有效的框架,旨在解决开放和动态场景下的异常图像识别和异常区域分割问题。现有方法通常依赖视觉-语言基础模型,但面临提示工程复杂、自适应模块繁琐以及训练策略挑战等问题,限制了其灵活性和通用性。UniADet重新思考了视觉-语言模型用于异常检测的根本机制,发现语言编码器用于推导异常分类和分割的决策权重并非必要。该方法完全解耦了分类和分割任务,以及跨层级特征,为不同任务和层级特征学习独立的权重。UniADet具有高度的简洁性(仅学习解耦权重)、参数高效性(仅0.002M可学习参数)、通用性(适应各种基础模型)和有效性(在14个真实世界异常检测基准上,超越了最先进的零样本/少样本方法,甚至首次超越了全样本异常检测方法)。

🔬 方法详解

问题定义:通用视觉异常检测旨在无需特定数据集微调的情况下,识别开放和动态场景中的异常图像并分割异常区域。现有方法依赖视觉-语言基础模型,但存在提示工程复杂、需要精细的适配模块以及训练策略具有挑战性等问题,限制了其通用性和灵活性。

核心思路:论文的核心思路是重新审视视觉-语言模型在异常检测中的作用,发现语言编码器并非必需。通过解耦分类和分割任务,以及跨层级特征,为不同任务和层级特征学习独立的权重,从而简化模型结构,提高通用性。

技术框架:UniADet框架主要包含特征提取、权重学习和异常检测三个阶段。首先,利用预训练的视觉基础模型提取图像特征。然后,通过学习少量可训练的权重,分别用于异常分类和异常分割,以及不同层级特征的融合。最后,基于学习到的权重和提取的特征进行异常检测。

关键创新:UniADet的关键创新在于完全解耦了分类和分割任务,以及跨层级特征,并学习独立的权重。这种解耦设计避免了复杂的提示工程和自适应模块,提高了模型的通用性和效率。此外,该方法仅需学习极少量的参数,实现了参数高效性。

关键设计:UniADet的关键设计包括:1) 使用预训练的视觉基础模型(如CLIP)提取图像特征;2) 引入可学习的权重参数,用于解耦分类和分割任务,以及跨层级特征;3) 使用简单的损失函数(如交叉熵损失)进行权重学习;4) 可学习参数量极少,仅为0.002M。

📊 实验亮点

UniADet在14个真实世界的异常检测基准上取得了显著的性能提升。在零样本和少样本设置下,UniADet大幅超越了现有最先进的方法。更重要的是,UniADet首次在通用异常检测任务上超越了全样本方法,证明了其强大的泛化能力和有效性。该模型仅需学习0.002M的参数,实现了参数高效性。

🎯 应用场景

UniADet在工业和医疗领域具有广泛的应用前景。例如,可用于产品质量检测,自动识别生产线上的缺陷产品;也可用于医学图像分析,辅助医生诊断疾病,例如检测X光片或CT扫描中的异常区域。该研究的通用性和高效性使其能够快速部署到各种实际场景中,具有重要的实际价值。

📄 摘要(原文)

Universal visual anomaly detection (AD) aims to identify anomaly images and segment anomaly regions towards open and dynamic scenarios, following zero- and few-shot paradigms without any dataset-specific fine-tuning. We have witnessed significant progress in widely use of visual-language foundational models in recent approaches. However, current methods often struggle with complex prompt engineering, elaborate adaptation modules, and challenging training strategies, ultimately limiting their flexibility and generality. To address these issues, this paper rethinks the fundamental mechanism behind visual-language models for AD and presents an embarrassingly simple, general, and effective framework for Universal vision Anomaly Detection (UniADet). Specifically, we first find language encoder is used to derive decision weights for anomaly classification and segmentation, and then demonstrate that it is unnecessary for universal AD. Second, we propose an embarrassingly simple method to completely decouple classification and segmentation, and decouple cross-level features, i.e., learning independent weights for different tasks and hierarchical features. UniADet is highly simple (learning only decoupled weights), parameter-efficient (only 0.002M learnable parameters), general (adapting a variety of foundation models), and effective (surpassing state-of-the-art zero-/few-shot by a large margin and even full-shot AD methods for the first time) on 14 real-world AD benchmarks covering both industrial and medical domains. We will make the code and model of UniADet available at https://github.com/gaobb/UniADet.