Exploring Multimodal Prompts For Unsupervised Continuous Anomaly Detection
作者: Mingle Zhou, Jiahui Liu, Jin Wan, Gang Li, Min Li
分类: cs.CV
发布日期: 2026-03-23
💡 一句话要点
提出基于多模态Prompt的UCAD框架,提升复杂场景下的异常检测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无监督异常检测 持续学习 多模态学习 Prompt学习 工业质检
📋 核心要点
- 现有UCAD方法仅依赖视觉信息,无法充分捕捉复杂场景下的常态分布,导致检测精度受限。
- 论文提出CMPMB,从视觉和文本模态中提取正常模式,构建更丰富的常态表示,提升检测能力。
- DSG-AFM融合ANM和DFS,增强检测精度和对抗鲁棒性,实验表明在AUROC和AUPR指标上达到SOTA。
📝 摘要(中文)
本文提出了一种基于多模态Prompt的无监督持续异常检测(UCAD)框架,旨在解决传统无监督异常检测(UAD)中存在的灾难性遗忘和计算负担过重的问题。现有UCAD方法仅依赖视觉信息,难以捕捉复杂场景中的常态流形,限制了异常检测精度的进一步提升。为了克服这一局限,我们引入了持续多模态Prompt记忆库(CMPMB),该记忆库逐步提炼并保留来自视觉和文本领域的典型正常模式,从而产生更丰富的常态表示。此外,我们设计了一种缺陷语义引导的自适应融合机制(DSG-AFM),该机制将自适应归一化模块(ANM)与动态融合策略(DFS)相结合,共同提高检测精度和对抗鲁棒性。在MVTec AD和VisA数据集上的基准实验表明,我们的方法在图像级AUROC和像素级AUPR指标上实现了最先进(SOTA)的性能。
🔬 方法详解
问题定义:无监督持续异常检测(UCAD)旨在解决传统无监督异常检测(UAD)中的灾难性遗忘和计算负担问题。然而,现有UCAD方法主要依赖于视觉信息,在复杂场景下难以充分学习和表示正常样本的分布,导致异常检测精度不高。这些方法缺乏对场景语义信息的有效利用,容易受到噪声和对抗样本的干扰。
核心思路:论文的核心思路是利用多模态信息(视觉和文本)来更全面地表示正常样本的特征,并结合Prompt学习的思想,逐步积累和更新正常模式的记忆。通过引入文本信息,可以提供场景的语义描述,从而更好地理解和区分正常和异常样本。同时,自适应融合机制可以根据不同模态的可靠性动态调整其权重,提高模型的鲁棒性。
技术框架:该框架主要包含两个核心模块:持续多模态Prompt记忆库(CMPMB)和缺陷语义引导的自适应融合机制(DSG-AFM)。CMPMB负责从视觉和文本模态中提取和存储正常模式的Prompt,并随着时间的推移不断更新。DSG-AFM则负责将来自不同模态的Prompt进行融合,并利用自适应归一化模块(ANM)和动态融合策略(DFS)来提高检测精度和鲁棒性。整体流程是,首先利用预训练模型提取视觉和文本特征,然后利用CMPMB存储正常模式的Prompt,最后利用DSG-AFM进行异常检测。
关键创新:论文的关键创新在于引入了多模态Prompt学习的思想,并设计了CMPMB和DSG-AFM两个模块。CMPMB能够有效地存储和更新正常模式的Prompt,从而避免了灾难性遗忘的问题。DSG-AFM能够自适应地融合来自不同模态的信息,并提高模型的鲁棒性。与现有方法相比,该方法能够更全面地表示正常样本的特征,从而提高异常检测的精度。
关键设计:CMPMB的设计包括Prompt的提取、存储和更新策略。Prompt的提取可以采用不同的方法,例如聚类或自编码器。Prompt的存储可以采用记忆库或向量量化的方式。Prompt的更新可以采用滑动平均或重放的方式。DSG-AFM的设计包括ANM和DFS的实现方式。ANM可以采用不同的归一化方法,例如BatchNorm或LayerNorm。DFS可以采用不同的融合策略,例如注意力机制或加权平均。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MVTec AD和VisA数据集上取得了SOTA性能。在图像级AUROC指标上,该方法相比现有最佳方法提升了X%,在像素级AUPR指标上,该方法相比现有最佳方法提升了Y%。此外,实验还验证了该方法在对抗攻击下的鲁棒性,表明该方法具有较强的实用价值。
🎯 应用场景
该研究成果可应用于工业质检、医疗影像分析、视频监控等领域。例如,在工业质检中,可以利用该方法检测产品表面的缺陷;在医疗影像分析中,可以辅助医生诊断疾病;在视频监控中,可以检测异常行为。该研究有望提升异常检测的精度和鲁棒性,降低人工干预的成本,具有重要的实际应用价值。
📄 摘要(原文)
Unsupervised Continuous Anomaly Detection (UCAD) is gaining attention for effectively addressing the catastrophic forgetting and heavy computational burden issues in traditional Unsupervised Anomaly Detection (UAD). However, existing UCAD approaches that rely solely on visual information are insufficient to capture the manifold of normality in complex scenes, thereby impeding further gains in anomaly detection accuracy. To overcome this limitation, we propose an unsupervised continual anomaly detection framework grounded in multimodal prompting. Specifically, we introduce a Continual Multimodal Prompt Memory Bank (CMPMB) that progressively distills and retains prototypical normal patterns from both visual and textual domains across consecutive tasks, yielding a richer representation of normality. Furthermore, we devise a Defect-Semantic-Guided Adaptive Fusion Mechanism (DSG-AFM) that integrates an Adaptive Normalization Module (ANM) with a Dynamic Fusion Strategy (DFS) to jointly enhance detection accuracy and adversarial robustness. Benchmark experiments on MVTec AD and VisA datasets show that our approach achieves state-of-the-art (SOTA) performance on image-level AUROC and pixel-level AUPR metrics.