Large-Scale Evaluation of Open-Set Image Classification Techniques

📄 arXiv: 2406.09112v1 📥 PDF

作者: Halil Bisgin, Andres Palechor, Mike Suter, Manuel Günther

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-06-13


💡 一句话要点

大规模评估开放集图像分类技术,揭示现有算法在未知类别泛化性上的局限性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 开放集分类 图像分类 未知类别识别 大规模评估 深度学习

📋 核心要点

  1. 现有分类方法在遇到未知的开放集类别时,容易将样本错误地归类到已知类别中,缺乏泛化能力。
  2. 论文通过大规模实验,对比了多种基于训练和后处理的开放集分类算法,旨在提升模型对未知类别的识别能力。
  3. 实验结果表明,EOS预训练能提升后处理算法性能,OpenMax和PROSER能有效利用预训练网络,但对全新未知类别的泛化性仍有待提高。

📝 摘要(中文)

分类的目标是为未见过的样本正确分配标签。然而,大多数方法会将具有未见标签的样本错误分类,并将其分配给已知类别之一。开放集分类(OSC)算法旨在最大化封闭集和开放集的识别能力。最近的研究表明了此类算法在小规模数据集上的效用,但有限的实验使得难以评估它们在实际问题中的性能。本文对各种OSC算法进行了全面比较,包括基于训练的方法(SoftMax、Garbage、EOS)和后处理方法(Maximum SoftMax Scores、Maximum Logit Scores、OpenMax、EVM、PROSER),后者应用于前者的特征之上。我们在模拟真实世界挑战的三个大规模协议上进行了评估,在已知和负开放集样本上进行训练,并在已知和未知实例上进行测试。结果表明,EOS有助于提高几乎所有后处理算法的性能。特别是,OpenMax和PROSER能够利用更好地训练的网络,证明了混合模型的效用。然而,虽然大多数算法在负测试样本(训练期间看到的开放集类别的样本)上表现良好,但当在先前未见过的未知类别的样本上进行测试时,它们往往表现不佳,尤其是在具有挑战性的条件下。

🔬 方法详解

问题定义:开放集图像分类旨在解决模型在测试时遇到训练集中未出现的类别样本时,如何正确识别这些未知样本的问题。现有方法,如传统的Softmax分类器,通常会将这些未知样本错误地分类到已知类别中,导致分类精度下降。因此,如何提高模型对未知类别的识别能力,是开放集分类的核心挑战。

核心思路:本文的核心思路是通过结合基于训练的方法和后处理方法,来提升开放集分类的性能。基于训练的方法旨在学习更好的特征表示,而后处理方法则利用这些特征来区分已知类别和未知类别。通过将两者结合,可以充分利用训练数据的信息,并提高模型对未知类别的泛化能力。

技术框架:整体框架包括两个主要阶段:1) 使用基于训练的方法(如SoftMax、Garbage、EOS)训练分类器,学习图像的特征表示;2) 使用后处理方法(如Maximum SoftMax Scores、Maximum Logit Scores、OpenMax、EVM、PROSER)对分类器的输出进行处理,以区分已知类别和未知类别。后处理方法通常基于分类器的置信度得分或特征向量的分布来进行判断。

关键创新:本文的关键创新在于对多种开放集分类算法进行了大规模的对比评估,并揭示了它们在不同场景下的优缺点。特别地,论文发现EOS预训练可以显著提升后处理算法的性能,而OpenMax和PROSER等算法能够有效利用预训练网络的特征。此外,论文还指出了现有算法在处理全新未知类别样本时的局限性。

关键设计:论文使用了三种大规模数据集进行评估,并设计了不同的实验协议来模拟真实世界的开放集分类场景。具体来说,论文训练模型时使用了已知类别和负开放集样本,并在测试时使用了已知类别和未知类别的样本。此外,论文还对各种算法的参数进行了调整,以获得最佳的性能。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,EOS预训练能够显著提升后处理算法的性能。例如,OpenMax和PROSER在EOS预训练的基础上,能够更好地利用网络学习到的特征,从而提高开放集分类的准确率。然而,实验也发现,现有算法在处理完全未见过的未知类别样本时,性能仍然较差,尤其是在具有挑战性的条件下。这表明开放集分类仍然是一个具有挑战性的研究方向。

🎯 应用场景

开放集图像分类技术在安全监控、异常检测、新物种识别等领域具有广泛的应用前景。例如,在安全监控中,可以识别未知的可疑物体;在医疗诊断中,可以检测未知的疾病类型。该研究有助于提升人工智能系统在实际应用中的鲁棒性和可靠性,使其能够更好地应对未知的环境和挑战。

📄 摘要(原文)

The goal for classification is to correctly assign labels to unseen samples. However, most methods misclassify samples with unseen labels and assign them to one of the known classes. Open-Set Classification (OSC) algorithms aim to maximize both closed and open-set recognition capabilities. Recent studies showed the utility of such algorithms on small-scale data sets, but limited experimentation makes it difficult to assess their performances in real-world problems. Here, we provide a comprehensive comparison of various OSC algorithms, including training-based (SoftMax, Garbage, EOS) and post-processing methods (Maximum SoftMax Scores, Maximum Logit Scores, OpenMax, EVM, PROSER), the latter are applied on features from the former. We perform our evaluation on three large-scale protocols that mimic real-world challenges, where we train on known and negative open-set samples, and test on known and unknown instances. Our results show that EOS helps to improve performance of almost all post-processing algorithms. Particularly, OpenMax and PROSER are able to exploit better-trained networks, demonstrating the utility of hybrid models. However, while most algorithms work well on negative test samples -- samples of open-set classes seen during training -- they tend to perform poorly when tested on samples of previously unseen unknown classes, especially in challenging conditions.