MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

📄 arXiv: 2505.09265v1 📥 PDF

作者: Bin-Bin Gao

分类: cs.CV, cs.AI

发布日期: 2025-05-14

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

MetaUAS:基于单样本元学习的通用异常分割,无需视觉-语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异常分割 元学习 变化分割 视觉基础模型 单样本学习

📋 核心要点

  1. 现有零样本和少样本异常分割依赖视觉-语言模型和人工设计的文本提示,但视觉表征本质上独立于语言。
  2. MetaUAS将异常分割统一为变化分割,利用大规模合成图像对进行训练,摆脱对特定异常数据集的依赖。
  3. MetaUAS仅需一个正常图像提示即可有效分割任何异常,无需语言指导,且性能显著优于现有方法。

📝 摘要(中文)

本文提出了一种通用的视觉异常分割方法,该方法不依赖于视觉-语言模型,而是探索了纯视觉基础模型在异常分割中的潜力。论文将异常分割统一为变化分割,并利用大规模合成图像对进行训练,这些图像对包含来自现有图像数据集的对象级和局部区域变化,且独立于目标异常数据集。论文提出了一个单样本元学习框架MetaUAS,用于通用异常分割,该框架在合成数据集上训练,并能很好地泛化到真实世界中分割任何新的或未见过的视觉异常。为了处理提示图像和查询图像之间的几何变化,论文提出了一个软特征对齐模块,该模块连接了配对图像变化感知和单图像语义分割。这是第一个使用纯视觉模型实现通用异常分割的工作,无需依赖特殊的异常检测数据集和预训练的视觉-语言模型。MetaUAS仅使用一个正常图像提示即可有效且高效地分割任何异常,并且无需语言指导即可进行无训练。MetaUAS显著优于以前的零样本、少样本甚至全样本异常分割方法。

🔬 方法详解

问题定义:现有异常分割方法严重依赖于视觉-语言模型,需要人工设计文本提示来描述异常,这限制了模型的泛化能力和易用性。此外,这些方法通常需要针对特定类型的异常进行训练或微调,难以适应未知的异常类型。

核心思路:论文的核心思路是将异常分割问题转化为变化分割问题。通过将正常图像作为prompt,异常图像作为query,异常区域即为两者的变化区域。这种转化使得可以使用大规模的合成数据进行训练,而无需依赖于真实的异常数据。同时,避免了对视觉-语言模型的依赖,从而提高了模型的泛化能力。

技术框架:MetaUAS框架主要包含三个部分:1) 特征提取器:用于提取prompt图像和query图像的视觉特征;2) 软特征对齐模块:用于对齐prompt图像和query图像的特征,处理几何变化;3) 分割模块:用于根据对齐后的特征,预测异常区域的分割结果。整个框架采用元学习的方式进行训练,即在合成数据集上学习如何进行变化分割,然后将学习到的知识迁移到真实的异常分割任务中。

关键创新:该论文的关键创新在于:1) 将异常分割问题转化为变化分割问题,从而可以使用大规模的合成数据进行训练;2) 提出了一个单样本元学习框架MetaUAS,可以仅使用一个正常图像提示即可分割任何异常;3) 提出了软特征对齐模块,用于处理prompt图像和query图像之间的几何变化。

关键设计:软特征对齐模块是MetaUAS的关键组成部分。该模块通过计算prompt图像和query图像特征之间的相似度,然后使用相似度作为权重,对query图像的特征进行加权平均,从而实现特征对齐。损失函数主要包括分割损失和特征对齐损失。分割损失用于衡量预测的分割结果与真实标签之间的差异,特征对齐损失用于约束prompt图像和query图像的特征尽可能对齐。网络结构方面,特征提取器可以使用预训练的视觉模型,如ResNet或ViT。分割模块可以使用常用的分割网络,如U-Net或DeepLab。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MetaUAS在多个异常分割数据集上取得了显著的性能提升。例如,在MVTec AD数据集上,MetaUAS的性能优于现有的零样本、少样本和全监督方法。实验结果表明,MetaUAS可以有效地分割各种类型的异常,并且具有很强的泛化能力。与现有方法相比,MetaUAS无需依赖视觉-语言模型,具有更高的效率和更低的计算成本。

🎯 应用场景

MetaUAS在工业质检、医疗影像分析、自动驾驶等领域具有广泛的应用前景。例如,在工业质检中,可以用于检测产品表面的缺陷;在医疗影像分析中,可以用于检测病灶区域;在自动驾驶中,可以用于检测道路上的障碍物。该方法无需针对特定类型的异常进行训练,具有很强的通用性和实用性。

📄 摘要(原文)

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.