NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning

作者: Tianwei Mu, Feiyu Duan, Bo Zhou, Dan Xue, Manhong Huang

分类: cs.CV, cs.AI

发布日期: 2025-07-10

💡 一句话要点

NexViTAD：基于视觉基础模型和多任务学习的小样本无监督跨域缺陷检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨域缺陷检测 视觉基础模型 多任务学习 小样本学习 异常检测

📋 核心要点

工业异常检测面临域偏移挑战，现有方法难以在不同数据集间泛化。
NexViTAD利用视觉基础模型，通过共享子空间投影和多任务学习实现跨域知识迁移。
实验表明，NexViTAD在MVTec AD数据集上取得了显著的性能提升，优于现有方法。

📝 摘要（中文）

本文提出了一种新颖的小样本跨域异常检测框架，即用于异常检测的Nexus Vision Transformer (NexViTAD)，该框架基于视觉基础模型，通过创新的共享子空间投影机制和多任务学习 (MTL) 模块，有效解决了工业异常检测中的域偏移挑战。主要创新包括：(1) 一个分层适配器模块，自适应地融合来自Hiera和DINO-v2预训练模型的互补特征，构建更鲁棒的特征表示；(2) 一种共享子空间投影策略，通过瓶颈维度约束和跳跃连接机制，实现有效的跨域知识迁移；(3) 一种MTL解码器架构，支持同时处理多个源域，显著增强了模型的泛化能力；(4) 一种基于Sinkhorn-K-means聚类的异常分数推理方法，结合高斯滤波和自适应阈值处理，实现精确的像素级检测。在MVTec AD数据集上的评估表明，NexViTAD在目标域中实现了最先进的性能，AUC为97.5%，AP为70.4%，PRO为95.2%，超越了其他最新的模型，标志着跨域缺陷检测的变革性进展。

🔬 方法详解

问题定义：论文旨在解决工业异常检测中，由于训练数据和测试数据分布差异（即域偏移）导致的模型泛化能力不足的问题。现有方法通常难以在新的、未见过的领域中有效检测缺陷，需要大量的目标域数据进行微调，这在实际应用中往往是不可行的。

核心思路：论文的核心思路是利用预训练的视觉基础模型（Hiera和DINO-v2）的强大特征提取能力，并通过共享子空间投影机制和多任务学习，实现跨域知识的有效迁移。通过将不同领域的特征投影到共享的低维空间，减少域之间的差异，从而提高模型在目标域的泛化能力。

技术框架：NexViTAD的整体架构包含以下几个主要模块：1) 分层适配器模块：用于融合来自Hiera和DINO-v2预训练模型的特征，生成更鲁棒的特征表示。2) 共享子空间投影模块：将不同源域的特征投影到共享的低维子空间，实现跨域知识迁移。3) 多任务学习解码器：同时处理多个源域的数据，提高模型的泛化能力。4) 异常分数推理模块：基于Sinkhorn-K-means聚类，结合高斯滤波和自适应阈值处理，生成像素级的异常分数。

关键创新：论文的关键创新在于：1) 提出了分层适配器模块，有效融合了不同预训练模型的互补特征。2) 设计了共享子空间投影策略，通过瓶颈维度约束和跳跃连接机制，实现了高效的跨域知识迁移。3) 提出了多任务学习解码器，支持同时处理多个源域数据，显著提升了模型的泛化能力。

关键设计：在共享子空间投影模块中，使用了瓶颈维度约束来限制子空间的维度，从而减少了域之间的差异。跳跃连接机制则用于保留原始特征的信息，避免信息损失。多任务学习解码器使用了共享的参数，以减少模型的参数量，并提高泛化能力。异常分数推理模块中，Sinkhorn-K-means聚类用于将特征向量聚类成正常和异常两类，高斯滤波用于平滑异常分数，自适应阈值处理用于确定最终的异常区域。

🖼️ 关键图片

📊 实验亮点

NexViTAD在MVTec AD数据集上取得了显著的性能提升，在目标域中实现了97.5%的AUC，70.4%的AP和95.2%的PRO，超越了其他最新的模型。这些结果表明，该方法在跨域缺陷检测方面具有显著的优势，能够有效解决域偏移问题。

🎯 应用场景

该研究成果可广泛应用于工业制造领域的缺陷检测，例如电子元件、纺织品、金属零件等产品的质量控制。通过减少对目标域数据的依赖，降低了部署成本，加速了工业自动化进程。未来，该方法有望扩展到医疗影像分析、遥感图像处理等领域，实现更广泛的应用。

📄 摘要（原文）

This paper presents a novel few-shot cross-domain anomaly detection framework, Nexus Vision Transformer for Anomaly Detection (NexViTAD), based on vision foundation models, which effectively addresses domain-shift challenges in industrial anomaly detection through innovative shared subspace projection mechanisms and multi-task learning (MTL) module. The main innovations include: (1) a hierarchical adapter module that adaptively fuses complementary features from Hiera and DINO-v2 pre-trained models, constructing more robust feature representations; (2) a shared subspace projection strategy that enables effective cross-domain knowledge transfer through bottleneck dimension constraints and skip connection mechanisms; (3) a MTL Decoder architecture supports simultaneous processing of multiple source domains, significantly enhancing model generalization capabilities; (4) an anomaly score inference method based on Sinkhorn-K-means clustering, combined with Gaussian filtering and adaptive threshold processing for precise pixel level. Valuated on the MVTec AD dataset, NexViTAD delivers state-of-the-art performance with an AUC of 97.5%, AP of 70.4%, and PRO of 95.2% in the target domains, surpassing other recent models, marking a transformative advance in cross-domain defect detection.

NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理