A Structured Benchmark for Text-Guided Anomaly Detection: When Language Stops Conditioning the Decision

📄 arXiv: 2606.01992v1 📥 PDF

作者: Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-06-01


💡 一句话要点

提出TGAD基准测试,揭示现有文本引导异常检测对语言条件的依赖不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本引导异常检测 多模态学习 基准测试 工业质检 视觉-语言模型

📋 核心要点

  1. 现有文本引导异常检测方法在评估时,文本条件恒定,无法有效衡量语言引导能力。
  2. 提出TGAD基准,包含提示敏感性测试、组件标记扩展和真实工业场景APD,逐步增加语言的作用。
  3. 实验表明,现有方法对文本的依赖性不足,标准基准高估了其文本引导能力。

📝 摘要(中文)

工业异常检测传统上是单模态任务。最近的多模态视觉-语言模型引入了文本输入,声称能够实现文本引导的零样本和少样本检测。然而,这些方法沿用单模态基准的评估协议,文本条件保持不变,无法衡量语言是否真正引导了决策。本文提出了文本引导异常检测(TGAD),一个结构化的基准,通过三个场景逐步增加语言的功能作用:MVTec AD上的受控提示敏感性设置;MVTec AD的组件标记扩展,要求模型将其评估限制在指定的部件上;以及新的组装面板数据集(APD),一个真实的工业场景,需要缺陷类型和部件位置知识。评估结果表明,文本界面仅在表面上影响决策:提示内容会被吸收,除非对象名词被移除;组件级别的指令不能约束决策,一旦指定部件之外的缺陷被认为是正常的;当两者在APD上结合时,图像级别的区分度会下降到低于MVTec的水平,甚至低于随机水平。这些结果表明,标准基准高估了当前多模态异常检测系统的文本引导能力,并且这种协议是模型能够通过语言可靠控制以进行工业部署的先决条件。

🔬 方法详解

问题定义:现有文本引导异常检测方法声称可以通过文本指令来引导异常检测,但现有的评估基准(如MVTec AD)主要针对单模态异常检测,无法有效评估文本引导能力。这些基准通常保持文本条件不变,因此无法区分模型性能的提升是来自文本引导还是仅仅依赖于强大的预训练视觉特征。因此,现有方法的痛点在于缺乏一个能够充分评估文本引导能力的基准测试。

核心思路:本文的核心思路是构建一个结构化的基准测试,逐步增加文本在异常检测过程中的作用。通过设计不同的场景,控制文本输入,观察模型性能的变化,从而评估模型对文本条件的依赖程度。如果模型真正依赖于文本引导,那么在文本信息缺失或错误的情况下,其性能应该显著下降。

技术框架:TGAD基准包含三个主要场景: 1. 受控提示敏感性测试:在MVTec AD数据集上,通过改变提示词的内容,例如移除对象名词,来测试模型对提示词的敏感度。 2. 组件标记扩展:扩展MVTec AD数据集,为每个对象添加组件标签,要求模型根据文本指令,仅评估指定组件的异常情况。允许指定组件外的缺陷被认为是正常的。 3. 组装面板数据集(APD):构建一个真实的工业场景数据集,包含组装面板的图像,并需要模型同时识别缺陷类型和缺陷位置。

关键创新:TGAD基准的关键创新在于其结构化的设计,能够逐步增加文本在异常检测中的作用,从而更全面地评估模型的文本引导能力。与传统的单模态基准相比,TGAD能够更准确地反映模型在实际应用中的性能。

关键设计:在实验中,作者选择了三种具有代表性的模型:生成式大型视觉-语言模型、免训练判别式模型和嵌入自适应判别式模型。通过在TGAD基准上评估这些模型,作者发现它们对文本的依赖性不足。例如,在受控提示敏感性测试中,当移除对象名词时,生成式模型的I-AUROC从97.4下降到82.6。在组件标记扩展中,当指定组件外的缺陷被认为是正常的时,性能从90.3下降到66.3。在APD数据集上,图像级别的区分度甚至低于MVTec的水平。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在TGAD基准上的表现远低于预期,文本引导能力被高估。例如,在APD数据集上,某些模型的图像级别区分度甚至低于随机水平(31.5%),表明模型未能有效利用文本信息进行异常检测。提示词中移除对象名词会导致生成式模型性能显著下降(97.4% -> 82.6%)。

🎯 应用场景

该研究成果可应用于工业质检、智能制造等领域,通过文本指令引导异常检测系统,提高检测效率和准确性。未来可用于开发更可靠、更易于控制的文本引导异常检测系统,实现更智能化的工业生产。

📄 摘要(原文)

Industrial anomaly detection has historically been a unimodal task. Recent multimodal vision-language models have produced systems that admit textual input alongside the image and are presented as enabling text-guided zero- and few-shot inspection. Yet these methods are evaluated with protocols inherited from unimodal benchmarks that hold the textual condition constant and therefore cannot measure whether language conditions the decision; whether reported gains reflect text guidance or strong pretrained visual features remains open. We introduce Text-Guided Anomaly Detection (TGAD), a structured benchmark that progressively increases the functional role of language across three scenarios: a controlled prompt-sensitivity setting on MVTec AD; a component-tagged extension of MVTec AD that requires the model to restrict its assessment to an instructed part; and the new Assembled Panel Dataset (APD), a realistic industrial setting that requires both defect-type and component-location knowledge. We evaluate one representative model per paradigm: generative large vision-language, training-free discriminative, and embedding-adaptive discriminative. In all three, the textual interface conditions the decision only superficially: prompt content is absorbed unless the object noun is removed (the generative model's I-AUROC drops from 97.4 to 82.6); component-level instructions do not constrain the decision once defects outside the instructed part are admitted as normal (from 90.3 to 66.3); and when both combine on APD, image-level discrimination collapses below the MVTec level, in one case below chance (71.2, 50.5, 31.5). These results suggest that standard benchmarks overstate the text-guided capabilities of current multimodal anomaly detection systems, and that a protocol of this kind is a prerequisite for models that can be reliably controlled through language for industrial deployment.