NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning

📄 arXiv: 2507.07579v1 📥 PDF

作者: Tianwei Mu, Feiyu Duan, Bo Zhou, Dan Xue, Manhong Huang

分类: cs.CV, cs.AI

发布日期: 2025-07-10


💡 一句话要点

NexViTAD:基于视觉基础模型和多任务学习的小样本无监督跨域缺陷检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨域缺陷检测 视觉基础模型 多任务学习 小样本学习 异常检测

📋 核心要点

  1. 工业异常检测面临域偏移挑战,现有方法难以在不同数据集间泛化。
  2. NexViTAD利用视觉基础模型,通过共享子空间投影和多任务学习实现跨域知识迁移。
  3. 实验表明,NexViTAD在MVTec AD数据集上取得了显著的性能提升,优于现有方法。

📝 摘要(中文)

本文提出了一种新颖的小样本跨域异常检测框架,即用于异常检测的Nexus Vision Transformer (NexViTAD),该框架基于视觉基础模型,通过创新的共享子空间投影机制和多任务学习 (MTL) 模块,有效解决了工业异常检测中的域偏移挑战。主要创新包括:(1) 一个分层适配器模块,自适应地融合来自Hiera和DINO-v2预训练模型的互补特征,构建更鲁棒的特征表示;(2) 一种共享子空间投影策略,通过瓶颈维度约束和跳跃连接机制,实现有效的跨域知识迁移;(3) 一种MTL解码器架构,支持同时处理多个源域,显著增强了模型的泛化能力;(4) 一种基于Sinkhorn-K-means聚类的异常分数推理方法,结合高斯滤波和自适应阈值处理,实现精确的像素级检测。在MVTec AD数据集上的评估表明,NexViTAD在目标域中实现了最先进的性能,AUC为97.5%,AP为70.4%,PRO为95.2%,超越了其他最新的模型,标志着跨域缺陷检测的变革性进展。

🔬 方法详解

问题定义:论文旨在解决工业异常检测中,由于训练数据和测试数据分布差异(即域偏移)导致的模型泛化能力不足的问题。现有方法通常难以在新的、未见过的领域中有效检测缺陷,需要大量的目标域数据进行微调,这在实际应用中往往是不可行的。

核心思路:论文的核心思路是利用预训练的视觉基础模型(Hiera和DINO-v2)的强大特征提取能力,并通过共享子空间投影机制和多任务学习,实现跨域知识的有效迁移。通过将不同领域的特征投影到共享的低维空间,减少域之间的差异,从而提高模型在目标域的泛化能力。

技术框架:NexViTAD的整体架构包含以下几个主要模块:1) 分层适配器模块:用于融合来自Hiera和DINO-v2预训练模型的特征,生成更鲁棒的特征表示。2) 共享子空间投影模块:将不同源域的特征投影到共享的低维子空间,实现跨域知识迁移。3) 多任务学习解码器:同时处理多个源域的数据,提高模型的泛化能力。4) 异常分数推理模块:基于Sinkhorn-K-means聚类,结合高斯滤波和自适应阈值处理,生成像素级的异常分数。

关键创新:论文的关键创新在于:1) 提出了分层适配器模块,有效融合了不同预训练模型的互补特征。2) 设计了共享子空间投影策略,通过瓶颈维度约束和跳跃连接机制,实现了高效的跨域知识迁移。3) 提出了多任务学习解码器,支持同时处理多个源域数据,显著提升了模型的泛化能力。

关键设计:在共享子空间投影模块中,使用了瓶颈维度约束来限制子空间的维度,从而减少了域之间的差异。跳跃连接机制则用于保留原始特征的信息,避免信息损失。多任务学习解码器使用了共享的参数,以减少模型的参数量,并提高泛化能力。异常分数推理模块中,Sinkhorn-K-means聚类用于将特征向量聚类成正常和异常两类,高斯滤波用于平滑异常分数,自适应阈值处理用于确定最终的异常区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NexViTAD在MVTec AD数据集上取得了显著的性能提升,在目标域中实现了97.5%的AUC,70.4%的AP和95.2%的PRO,超越了其他最新的模型。这些结果表明,该方法在跨域缺陷检测方面具有显著的优势,能够有效解决域偏移问题。

🎯 应用场景

该研究成果可广泛应用于工业制造领域的缺陷检测,例如电子元件、纺织品、金属零件等产品的质量控制。通过减少对目标域数据的依赖,降低了部署成本,加速了工业自动化进程。未来,该方法有望扩展到医疗影像分析、遥感图像处理等领域,实现更广泛的应用。

📄 摘要(原文)

This paper presents a novel few-shot cross-domain anomaly detection framework, Nexus Vision Transformer for Anomaly Detection (NexViTAD), based on vision foundation models, which effectively addresses domain-shift challenges in industrial anomaly detection through innovative shared subspace projection mechanisms and multi-task learning (MTL) module. The main innovations include: (1) a hierarchical adapter module that adaptively fuses complementary features from Hiera and DINO-v2 pre-trained models, constructing more robust feature representations; (2) a shared subspace projection strategy that enables effective cross-domain knowledge transfer through bottleneck dimension constraints and skip connection mechanisms; (3) a MTL Decoder architecture supports simultaneous processing of multiple source domains, significantly enhancing model generalization capabilities; (4) an anomaly score inference method based on Sinkhorn-K-means clustering, combined with Gaussian filtering and adaptive threshold processing for precise pixel level. Valuated on the MVTec AD dataset, NexViTAD delivers state-of-the-art performance with an AUC of 97.5%, AP of 70.4%, and PRO of 95.2% in the target domains, surpassing other recent models, marking a transformative advance in cross-domain defect detection.