Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

📄 arXiv: 2405.07969v1 📥 PDF

作者: Kevin Stangl, Marius Arvinte, Weilin Xu, Cory Cornelius

分类: cs.CV, cs.AI

发布日期: 2024-05-13


💡 一句话要点

研究CLIP零样本异常分割的语义鲁棒性,揭示其在语义扰动下的性能下降

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常分割 语义鲁棒性 CLIP模型 图像扰动

📋 核心要点

  1. 零样本异常分割依赖预训练模型,避免了特定领域的训练成本,但其鲁棒性面临挑战。
  2. 论文通过引入语义扰动(旋转、饱和度、色调)来评估WinCLIP在异常分割任务中的鲁棒性。
  3. 实验表明,即使是轻微的语义扰动也会显著降低WinCLIP的性能,揭示了其脆弱性。

📝 摘要(中文)

本文研究了基于预训练基础模型的零样本异常分割方法,该方法无需昂贵的领域特定训练或微调即可实现有效的算法。确保这些方法在各种环境条件下工作,并对分布偏移具有鲁棒性是一个开放性问题。我们通过使用三种语义变换(有界角度旋转、有界饱和度偏移和色调偏移)扰动测试数据,研究了WinCLIP零样本异常分割算法的性能。我们通过聚合每个样本的最坏情况扰动来经验性地测量性能下限,发现ROC曲线下面积的平均性能下降高达20%,每个区域重叠曲线下面积的平均性能下降高达40%。我们发现,在三种CLIP骨干网络上,无论模型架构或学习目标如何,性能都会持续下降,这表明需要仔细进行性能评估。

🔬 方法详解

问题定义:论文旨在研究基于CLIP的零样本异常分割算法在面对语义扰动时的鲁棒性问题。现有的零样本异常分割方法虽然避免了特定领域的训练,但在实际应用中,图像可能受到各种环境因素的影响,导致语义信息的改变,从而影响分割性能。因此,评估和提升零样本异常分割算法在语义扰动下的鲁棒性至关重要。

核心思路:论文的核心思路是通过对测试图像施加有界的语义扰动(包括角度旋转、饱和度偏移和色调偏移),来模拟实际应用中可能出现的图像质量下降或环境变化。通过观察算法在这些扰动下的性能变化,评估其对语义信息的依赖程度和鲁棒性。

技术框架:论文主要针对WinCLIP算法进行研究,该算法利用CLIP模型提取图像特征,并进行异常分割。研究流程包括:1) 选择WinCLIP算法和CLIP骨干网络;2) 对测试图像施加三种语义扰动;3) 使用扰动后的图像进行异常分割;4) 评估分割结果,并与原始图像的分割结果进行比较,计算性能下降的幅度。

关键创新:论文的关键创新在于其评估零样本异常分割算法鲁棒性的方法。通过引入可控的语义扰动,能够更全面地评估算法在实际应用中的性能。此外,论文还发现,即使是轻微的语义扰动也会显著降低算法的性能,这为未来的研究提供了重要的启示。

关键设计:论文的关键设计包括:1) 选择了三种常见的语义扰动类型,分别是角度旋转、饱和度偏移和色调偏移;2) 对每种扰动设置了有界的范围,以确保扰动不会过于极端,从而更真实地模拟实际应用中的情况;3) 使用了ROC曲线下面积(AUC)和每个区域重叠曲线下面积(AUPRO)作为评估指标,以全面衡量分割性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在三种CLIP骨干网络上,WinCLIP算法的性能都会因语义扰动而显著下降。具体而言,ROC曲线下面积的平均性能下降高达20%,每个区域重叠曲线下面积的平均性能下降高达40%。这一结果表明,现有的基于CLIP的零样本异常分割算法在语义鲁棒性方面存在不足,需要进一步改进。

🎯 应用场景

该研究成果可应用于工业质检、医疗影像分析、自动驾驶等领域。通过提升零样本异常分割算法的鲁棒性,可以使其在各种环境条件下都能准确地检测出异常,从而提高生产效率、保障产品质量、辅助医生诊断、提升驾驶安全性。未来的研究可以集中在设计更鲁棒的零样本异常分割算法,使其能够更好地应对语义扰动。

📄 摘要(原文)

Zero-shot anomaly segmentation using pre-trained foundation models is a promising approach that enables effective algorithms without expensive, domain-specific training or fine-tuning. Ensuring that these methods work across various environmental conditions and are robust to distribution shifts is an open problem. We investigate the performance of WinCLIP [14] zero-shot anomaly segmentation algorithm by perturbing test data using three semantic transformations: bounded angular rotations, bounded saturation shifts, and hue shifts. We empirically measure a lower performance bound by aggregating across per-sample worst-case perturbations and find that average performance drops by up to 20% in area under the ROC curve and 40% in area under the per-region overlap curve. We find that performance is consistently lowered on three CLIP backbones, regardless of model architecture or learning objective, demonstrating a need for careful performance evaluation.