Explainable Visual Anomaly Detection via Concept Bottleneck Models

📄 arXiv: 2511.20088v1 📥 PDF

作者: Arianna Stropeni, Valentina Zaccaria, Francesco Borsatti, Davide Dalle Pezze, Manuel Barusco, Gian Antonio Susto

分类: cs.CV, cs.AI

发布日期: 2025-11-25


💡 一句话要点

提出基于概念瓶颈模型的可解释视觉异常检测方法CONVAD

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 视觉异常检测 可解释性 概念瓶颈模型 异常解释 人工异常合成

📋 核心要点

  1. 现有视觉异常检测方法缺乏语义层面的可解释性,难以提供对异常原因的直观理解。
  2. 论文提出CONVAD,将概念瓶颈模型引入视觉异常检测,学习可解释的概念表示,提供概念驱动的异常解释。
  3. CONVAD在性能上与传统VAD方法相当,同时提供了更丰富的、基于概念的解释,提升了可解释性和信任度。

📝 摘要(中文)

近年来,视觉异常检测(VAD)因其仅使用正常图像进行训练即可识别异常图像的能力而备受关注。许多VAD模型在无监督的情况下工作,但仍能通过突出显示图像中的异常区域来提供视觉解释。然而,尽管这些视觉解释可能有所帮助,但它们缺乏对用户而言直接且具有语义意义的解释。为了解决这个局限性,我们建议将概念瓶颈模型(CBM)扩展到VAD设置中。通过学习有意义的概念,网络可以提供人类可解释的异常描述,从而提供一种新颖且更具洞察力的方式来解释它们。我们的贡献有三方面:(i)我们开发了一个概念数据集,以支持CBM在VAD中的研究;(ii)我们改进了CBM架构,以生成基于概念的和视觉的解释,从而弥合语义和定位可解释性;(iii)我们引入了一种合成人工异常的流程,保留了VAD范例,即最大限度地减少对罕见异常样本的依赖。我们的方法,即概念感知视觉异常检测(CONVAD),在提供更丰富的、概念驱动的解释的同时,实现了与经典VAD方法相当的性能,从而增强了VAD系统的可解释性和信任度。

🔬 方法详解

问题定义:视觉异常检测旨在识别与训练集中正常数据分布不同的图像或图像区域。现有方法虽然能够定位异常区域,但缺乏对异常原因的语义解释,用户难以理解模型判断的依据。这限制了VAD系统在安全关键领域的应用,因为用户需要信任并理解模型的决策过程。

核心思路:论文的核心思路是将概念瓶颈模型(CBM)引入VAD任务。CBM通过学习一组预定义的、人类可理解的概念来表示输入数据,从而实现模型决策的可解释性。在VAD中,CBM可以学习正常图像的概念表示,并利用这些概念来检测和解释异常。如果图像中某些概念的激活与正常图像的分布显著不同,则可以将其判定为异常,并根据激活异常的概念来解释异常原因。

技术框架:CONVAD的整体框架包含以下几个主要模块:1) 概念编码器:将输入图像编码为一组概念的激活值。2) 异常检测器:基于概念激活值判断图像是否为异常。3) 视觉解释器:生成异常区域的视觉解释,例如异常热图。4) 概念数据集:用于训练概念编码器,包含带有概念标注的图像。论文还提出了一种人工异常合成流程,用于在缺乏真实异常样本的情况下训练VAD模型。

关键创新:CONVAD的关键创新在于将概念瓶颈模型应用于视觉异常检测,从而实现了概念驱动的可解释性。与传统的VAD方法相比,CONVAD不仅可以定位异常区域,还可以提供对异常原因的语义解释,例如“该图像被判定为异常,因为缺少’车轮’概念”。此外,论文还提出了一个用于CBM-VAD研究的概念数据集和一个人工异常合成流程。

关键设计:CONVAD的关键设计包括:1) 概念编码器的选择:可以使用各种神经网络架构,例如卷积神经网络或Transformer。2) 概念损失函数:用于训练概念编码器,鼓励其学习有意义的概念表示。3) 异常评分函数:基于概念激活值计算图像的异常分数。4) 人工异常合成策略:用于生成具有不同类型异常的人工图像,例如添加噪声、遮挡或改变图像的某些属性。

📊 实验亮点

CONVAD在多个视觉异常检测数据集上进行了评估,结果表明,CONVAD在提供更丰富的、概念驱动的解释的同时,实现了与经典VAD方法相当的性能。例如,在MVTec AD数据集上,CONVAD的AUROC指标与传统方法相比略有下降,但提供了更具可解释性的异常解释。此外,人工异常合成流程有效地提高了CONVAD在缺乏真实异常样本时的性能。

🎯 应用场景

CONVAD可应用于各种需要可解释异常检测的场景,例如工业质检、医疗影像分析、自动驾驶等。在工业质检中,CONVAD可以检测产品缺陷并解释缺陷原因,帮助工程师改进生产流程。在医疗影像分析中,CONVAD可以辅助医生诊断疾病并解释诊断依据,提高诊断效率和准确性。在自动驾驶中,CONVAD可以检测异常交通状况并解释异常原因,提高自动驾驶系统的安全性。

📄 摘要(原文)

In recent years, Visual Anomaly Detection (VAD) has gained significant attention due to its ability to identify anomalous images using only normal images during training. Many VAD models work without supervision but are still able to provide visual explanations by highlighting the anomalous regions within an image. However, although these visual explanations can be helpful, they lack a direct and semantically meaningful interpretation for users. To address this limitation, we propose extending Concept Bottleneck Models (CBMs) to the VAD setting. By learning meaningful concepts, the network can provide human-interpretable descriptions of anomalies, offering a novel and more insightful way to explain them. Our contributions are threefold: (i) we develop a Concept Dataset to support research on CBMs for VAD; (ii) we improve the CBM architecture to generate both concept-based and visual explanations, bridging semantic and localization interpretability; and (iii) we introduce a pipeline for synthesizing artificial anomalies, preserving the VAD paradigm of minimizing dependence on rare anomalous samples. Our approach, Concept-Aware Visual Anomaly Detection (CONVAD), achieves performance comparable to classic VAD methods while providing richer, concept-driven explanations that enhance interpretability and trust in VAD systems.