Equipping Vision Foundation Model with Mixture of Experts for Out-of-Distribution Detection
作者: Shizhen Zhao, Jiahui Liu, Xin Wen, Haoru Tan, Xiaojuan Qi
分类: cs.CV
发布日期: 2025-10-12
💡 一句话要点
提出MoFE模块和动态Mixup策略,提升视觉基础模型在OOD检测中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异常检测 视觉基础模型 特征学习 混合专家 Mixup策略
📋 核心要点
- 现有方法在处理具有较大语义空间的OOD检测时,由于决策边界复杂性增加,性能不佳。
- 提出混合特征专家(MoFE)模块,将特征划分为子空间,捕获复杂数据分布并细化决策边界。
- 引入动态-$β$ Mixup策略,自适应调整不同类别的学习难度,提升更具挑战性类别的特征学习。
📝 摘要(中文)
预训练视觉基础模型已经变革了许多计算机视觉任务。尽管它们在学习判别性和泛化性特征方面表现出色,这对异常检测(OOD)至关重要,但它们在该任务中的影响仍未被充分探索。为此,我们系统地研究了用于OOD检测的代表性视觉基础模型。我们的研究表明,即使没有在域内(ID)数据上进行微调,预训练的DINOv2模型也能自然地提供高度判别性的特征空间,其性能与现有的最先进方法相当,且无需复杂的设计。此外,我们还探讨了在域内(ID)数据上微调基础模型如何增强OOD检测。然而,我们观察到,在具有较大语义空间的场景中,视觉基础模型的性能仍然不令人满意。这是由于类别数量的增加导致决策边界的复杂性增加,从而使优化过程复杂化。为了缓解这个问题,我们提出了特征专家混合(MoFE)模块,该模块将特征划分为子空间,有效地捕获复杂的数据分布并细化决策边界。此外,我们引入了一种动态-$β$ Mixup策略,该策略从动态beta分布中采样插值权重。这适应了不同类别之间不同程度的学习难度,从而改善了更具挑战性的类别的特征学习。大量的实验证明了我们方法的有效性,显著优于基线方法。
🔬 方法详解
问题定义:论文旨在解决视觉基础模型在Out-of-Distribution (OOD)检测任务中,尤其是在具有较大语义空间的场景下,性能不佳的问题。现有的方法在面对类别数量增加时,决策边界变得复杂,导致模型难以有效区分In-Distribution (ID)和OOD数据。
核心思路:论文的核心思路是通过将特征空间划分为多个子空间,并为每个子空间训练一个专家模型,从而降低每个子空间的决策边界复杂度。此外,通过动态调整Mixup策略中的参数,使模型能够更好地学习不同类别的特征表示,从而提高OOD检测的准确性。
技术框架:整体框架包括以下几个主要模块:1) 视觉基础模型(如DINOv2)提取特征;2) 特征专家混合(MoFE)模块,将特征划分为多个子空间,并为每个子空间训练一个专家模型;3) 动态-$β$ Mixup策略,用于增强特征学习;4) OOD检测器,基于学习到的特征进行OOD检测。
关键创新:论文的关键创新在于提出了MoFE模块和动态-$β$ Mixup策略。MoFE模块通过将特征空间划分为多个子空间,降低了每个子空间的决策边界复杂度,从而提高了模型的判别能力。动态-$β$ Mixup策略则通过自适应调整Mixup参数,使模型能够更好地学习不同类别的特征表示。
关键设计:MoFE模块的关键设计在于如何划分特征空间以及如何训练每个子空间的专家模型。论文采用了一种基于聚类的特征划分方法,将特征空间划分为多个子空间。每个子空间的专家模型采用简单的线性分类器。动态-$β$ Mixup策略的关键设计在于如何动态调整Mixup参数。论文采用了一种基于类别难度的调整方法,对于难度较大的类别,采用较大的Mixup参数,从而增强模型的学习能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的MoFE模块和动态-$β$ Mixup策略能够显著提高视觉基础模型在OOD检测任务中的性能。在多个数据集上,该方法都优于现有的基线方法,尤其是在具有较大语义空间的场景下,性能提升更为明显。例如,在某个数据集上,该方法将OOD检测的AUROC指标提升了超过5%。
🎯 应用场景
该研究成果可应用于安全关键领域,例如自动驾驶、医疗诊断和金融风控等。在这些领域中,准确识别OOD数据至关重要,可以避免潜在的风险和损失。例如,在自动驾驶中,识别出未知的交通状况可以避免交通事故;在医疗诊断中,识别出罕见疾病可以提高诊断准确率。
📄 摘要(原文)
Pre-trained vision foundation models have transformed many computer vision tasks. Despite their strong ability to learn discriminative and generalizable features crucial for out-of-distribution (OOD) detection, their impact on this task remains underexplored. Motivated by this gap, we systematically investigate representative vision foundation models for OOD detection. Our findings reveal that a pre-trained DINOv2 model, even without fine-tuning on in-domain (ID) data, naturally provides a highly discriminative feature space for OOD detection, achieving performance comparable to existing state-of-the-art methods without requiring complex designs. Beyond this, we explore how fine-tuning foundation models on in-domain (ID) data can enhance OOD detection. However, we observe that the performance of vision foundation models remains unsatisfactory in scenarios with a large semantic space. This is due to the increased complexity of decision boundaries as the number of categories grows, which complicates the optimization process. To mitigate this, we propose the Mixture of Feature Experts (MoFE) module, which partitions features into subspaces, effectively capturing complex data distributions and refining decision boundaries. Further, we introduce a Dynamic-$β$ Mixup strategy, which samples interpolation weights from a dynamic beta distribution. This adapts to varying levels of learning difficulty across categories, improving feature learning for more challenging categories. Extensive experiments demonstrate the effectiveness of our approach, significantly outperforming baseline methods.