Hierarchical Visual Categories Modeling: A Joint Representation Learning and Density Estimation Framework for Out-of-Distribution Detection
作者: Jinglun Li, Xinyu Zhou, Pinxue Guo, Yixuan Sun, Yiwen Huang, Weifeng Ge, Wenqiang Zhang
分类: cs.CV
发布日期: 2024-08-28
备注: Accepted by ICCV2023
💡 一句话要点
提出一种分层视觉类别建模框架,通过联合表征学习和密度估计实现Out-of-Distribution检测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Out-of-Distribution检测 表征学习 密度估计 高斯混合模型 马氏距离
📋 核心要点
- 现有Out-of-Distribution检测方法依赖辅助异常数据,可能降低泛化能力。
- 提出联合表征学习和统计建模的分层视觉类别建模方案,无需额外异常数据。
- 实验表明,该方法在多个数据集上超越现有技术,且不影响视觉识别性能。
📝 摘要(中文)
本文提出了一种新颖的分层视觉类别建模方案,通过联合表征学习和统计建模,将分布外(out-of-distribution)数据与分布内(in-distribution)数据分离。该方法为每个分布内类别学习一个高斯混合模型。使用多个高斯混合模型来建模不同的视觉类别。利用这些高斯模型,设计了一个基于聚合多个马氏距离度量的分布内得分函数。该方法不使用任何辅助的异常值数据作为训练样本,避免了可能损害分布外检测算法泛化能力的问题。在ImageNet-1k数据集上进行了实验,将其随机分为十个fold,使用一个fold作为分布内数据集,其余作为分布外数据集来评估所提出的方法。此外,还在七个流行的基准数据集上进行了实验,包括CIFAR、iNaturalist、SUN、Places、Textures、ImageNet-O和OpenImage-O。实验结果表明,该方法明显优于当前最先进的算法。同时,发现该方法学习到的视觉表征与经典方法相比具有竞争力的性能。这些结果表明,该方法没有削弱视觉识别模型的判别能力,并且在检测分布外样本时保持了很高的效率。
🔬 方法详解
问题定义:Out-of-Distribution (OOD) 检测旨在识别与训练数据分布不同的输入样本。现有方法通常依赖于辅助的异常值数据进行训练,这可能会损害模型在真实世界OOD数据上的泛化能力,并且需要额外的标注成本。因此,如何在不依赖额外异常数据的情况下,有效地检测OOD样本是一个关键问题。
核心思路:本文的核心思路是为每个In-Distribution类别学习一个高斯混合模型(GMM),通过GMM来建模该类别的分布特征。然后,利用这些GMM,设计一个基于马氏距离的In-Distribution得分函数,用于区分In-Distribution和OOD样本。通过联合优化表征学习和密度估计,使得学习到的特征更具有区分性,从而提高OOD检测的准确率。
技术框架:该方法主要包含两个阶段:表征学习和密度估计。在表征学习阶段,使用标准的分类网络(如ResNet)进行训练,学习视觉特征。在密度估计阶段,为每个In-Distribution类别学习一个GMM,GMM的参数(均值和协方差矩阵)通过训练数据的特征进行估计。在推理阶段,对于每个输入样本,计算其相对于每个类别的GMM的马氏距离,并根据这些距离计算In-Distribution得分。如果得分低于某个阈值,则认为该样本是OOD样本。
关键创新:该方法的主要创新在于提出了一种分层视觉类别建模方案,通过联合表征学习和统计建模,实现了在不依赖额外异常数据的情况下进行OOD检测。与现有方法相比,该方法更加简洁有效,并且具有更好的泛化能力。此外,使用GMM建模类别分布,能够更好地捕捉类别内部的复杂结构。
关键设计:该方法的关键设计包括:1) 使用马氏距离作为In-Distribution得分的度量,马氏距离能够考虑特征之间的相关性,从而更准确地衡量样本与类别分布之间的距离。2) 使用GMM建模类别分布,GMM能够捕捉类别内部的多个模式,从而更准确地描述类别特征。3) 通过实验选择合适的GMM组件数量,以平衡模型的复杂度和泛化能力。损失函数主要为交叉熵损失,用于训练表征学习网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个OOD检测基准数据集上取得了显著的性能提升。例如,在ImageNet-1k数据集上,该方法明显优于当前最先进的算法。此外,该方法在CIFAR、iNaturalist等数据集上也表现出优异的性能。重要的是,该方法在提升OOD检测性能的同时,没有牺牲视觉识别模型的判别能力。
🎯 应用场景
该研究成果可应用于自动驾驶、医疗诊断、金融风控等安全攸关领域。例如,在自动驾驶中,OOD检测可以帮助识别未知的交通状况或障碍物,从而避免潜在的事故。在医疗诊断中,可以检测罕见疾病或异常病例,辅助医生进行更准确的诊断。在金融风控中,可以识别欺诈交易或异常行为,保障金融安全。
📄 摘要(原文)
Detecting out-of-distribution inputs for visual recognition models has become critical in safe deep learning. This paper proposes a novel hierarchical visual category modeling scheme to separate out-of-distribution data from in-distribution data through joint representation learning and statistical modeling. We learn a mixture of Gaussian models for each in-distribution category. There are many Gaussian mixture models to model different visual categories. With these Gaussian models, we design an in-distribution score function by aggregating multiple Mahalanobis-based metrics. We don't use any auxiliary outlier data as training samples, which may hurt the generalization ability of out-of-distribution detection algorithms. We split the ImageNet-1k dataset into ten folds randomly. We use one fold as the in-distribution dataset and the others as out-of-distribution datasets to evaluate the proposed method. We also conduct experiments on seven popular benchmarks, including CIFAR, iNaturalist, SUN, Places, Textures, ImageNet-O, and OpenImage-O. Extensive experiments indicate that the proposed method outperforms state-of-the-art algorithms clearly. Meanwhile, we find that our visual representation has a competitive performance when compared with features learned by classical methods. These results demonstrate that the proposed method hasn't weakened the discriminative ability of visual recognition models and keeps high efficiency in detecting out-of-distribution samples.