Pretraining Objective Matters in Extreme Low-Data FGVC: A Backbone-Controlled Study

📄 arXiv: 2605.15599v1 📥 PDF

作者: Alexander Hackett, Srikanth Thudumu, Ginny Fisher, Mahule Roy, Aisha Sartaj, Jason Fisher

分类: cs.CV, cs.AI

发布日期: 2026-05-15

备注: Presented at the 13th Workshop on Fine-Grained Visual Categorization (FGVC13) at CVPR 2026

期刊: 13th Workshop on Fine-Grained Visual Categorization (FGVC13), CVPR 2026


💡 一句话要点

针对极低数据量细粒度分类,研究预训练目标对表征质量的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 细粒度分类 预训练目标 低数据量学习 对比学习 掩码重建 自蒸馏 表征学习

📋 核心要点

  1. 在细粒度分类任务中,标注数据昂贵,导致极低数据量情况普遍,需要选择合适的预训练模型。
  2. 该研究比较了不同预训练目标(监督、对比学习、掩码重建、自蒸馏)对下游表征质量的影响。
  3. 实验表明,监督和对比学习预训练在线性可分性方面表现更优,而掩码重建在非线性分类器下有所提升。

📝 摘要(中文)

在专家领域,极低数据量的细粒度分类很常见,因为标注成本很高。从业者需要选择预训练编码器的原则性指导。我们使用自定义的祖母绿内含物分级数据集,包含三个类别的标记图像,并提出问题:在匹配骨干网络容量的情况下,预训练目标如何影响下游表征质量?我们比较了四个使用监督分类、对比学习 (SigLIP2)、掩码重建 (MAE) 和自蒸馏 (DINOv3) 训练的冻结 ViT-B/16 编码器,并使用留一法交叉验证,通过线性和非线性探针进行评估。为了控制低 N 状态下的统计噪声,我们对宏观一对多 AUC 使用排列测试 (N=1000)。监督和对比编码器提供了最强的线性可分性(logistic AUC:0.768 和 0.735;SVM AUC:0.739 和 0.697),而 MAE 在非线性探针下有所改善(XGBoost AUC:0.713)。我们发现 DINOv3 在该领域的各种探针系列中表现不佳。这些结果为极低数据量 FGVC 提供了一个实用的建议:当数据稀缺限制探测到线性决策规则时,优先考虑强制边缘的预训练目标;当数据集约束允许非线性分类器时,考虑重建式编码器。

🔬 方法详解

问题定义:论文旨在解决极低数据量下的细粒度分类问题。现有方法缺乏针对不同预训练目标的选择指导,尤其是在数据量极少的情况下,如何选择合适的预训练模型以获得更好的下游任务性能是一个挑战。

核心思路:论文的核心思路是通过控制骨干网络容量,比较不同预训练目标(监督、对比学习、掩码重建、自蒸馏)对下游表征质量的影响。通过评估不同预训练模型在下游任务中的表现,为极低数据量下的细粒度分类任务提供预训练模型的选择指导。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建祖母绿内含物分级数据集;2) 使用四种不同的预训练目标(监督分类、对比学习 SigLIP2、掩码重建 MAE、自蒸馏 DINOv3)训练 ViT-B/16 编码器;3) 使用留一法交叉验证,通过线性和非线性探针评估预训练编码器的表征质量;4) 使用排列测试控制低 N 状态下的统计噪声。

关键创新:该研究的关键创新在于针对极低数据量下的细粒度分类问题,系统性地比较了不同预训练目标对下游表征质量的影响,并为实际应用提供了预训练模型的选择指导。与现有方法相比,该研究更加关注极低数据量下的预训练模型选择问题,并提供了更具针对性的建议。

关键设计:该研究的关键设计包括:1) 使用 ViT-B/16 作为骨干网络,控制模型容量;2) 选择四种具有代表性的预训练目标进行比较;3) 使用线性和非线性探针评估表征质量;4) 使用排列测试控制统计噪声;5) 使用 AUC 作为评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在极低数据量下,监督学习和对比学习预训练模型在线性可分性方面表现更优(logistic AUC 分别为 0.768 和 0.735,SVM AUC 分别为 0.739 和 0.697),而掩码重建预训练模型在非线性分类器下有所提升(XGBoost AUC 为 0.713)。DINOv3 在该领域的各种探针系列中表现不佳。

🎯 应用场景

该研究成果可应用于专家领域中数据标注成本高昂的细粒度分类任务,例如医学图像分析、材料科学、地质勘探等。通过选择合适的预训练模型,可以有效提升在极低数据量下的分类精度,降低人工标注成本,加速相关领域的研究和应用。

📄 摘要(原文)

Extreme low-data fine-grained classification is common in expert domains where labeling is expensive, yet practitioners still need principled guidance for selecting pretrained encoders. We study emerald inclusion grading with a custom dataset of labeled images across three classes and ask: under matched backbone capacity, how does pretraining objective affect downstream representation quality? We compare four frozen ViT-B/16 encoders trained with supervised classification, contrastive learning (SigLIP2), masked reconstruction (MAE), and self-distillation (DINOv3), and evaluate them with leave-one-out cross-validation using linear and nonlinear probes. To control statistical noise in the low-N regime, we use permutation testing (N=1000) on macro one-vs-rest AUC. Supervised and contrastive encoders provide the strongest linear separability (logistic AUC: 0.768 and 0.735; SVM AUC: 0.739 and 0.697), while MAE improves under nonlinear probes (XGBoost AUC: 0.713). We find that DINOv3 underperforms across probe families in this domain. These results support a practical recommendation for extreme low-data FGVC: prioritize margin-enforcing pretraining objectives when data scarcity restricts probing to linear decision rules, and consider reconstruction-style encoders when nonlinear classifiers are feasible given dataset constraints.