Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?

📄 arXiv: 2410.15919v2 📥 PDF

作者: Lingao Xiao, Yang He

分类: cs.CV

发布日期: 2024-10-21 (更新: 2024-11-03)

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出类内监督的数据集蒸馏方法,显著压缩软标签大小并提升性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 软标签压缩 类内监督 图像合成 批归一化

📋 核心要点

  1. 现有数据集蒸馏方法依赖大规模软标签,存储开销巨大,限制了其应用。
  2. 通过引入类内监督,增加合成图像的类内多样性,降低对大规模软标签的依赖。
  3. 实验表明,该方法在大幅压缩软标签的同时,还能提升数据集蒸馏的性能。

📝 摘要(中文)

在ImageNet数据集压缩中,辅助软标签的存储量超过压缩数据集的30倍。本文旨在探究大规模软标签对于大规模数据集蒸馏是否必要。研究发现,压缩数据集中类内高相似性是使用大规模软标签的必要条件。这种高相似性源于先前方法在批归一化(BN)匹配时,使用来自不同类别的样本构建单个批次。为了降低类内相似性,本文通过在图像合成过程中按类别进行批处理,引入类内监督。这增加了类内多样性,并减少了所需软标签的大小。图像多样性的一个关键优势是,可以通过简单的随机剪枝实现软标签压缩,无需复杂的基于规则的策略。实验验证了这些发现。例如,当将ImageNet-1K压缩到每类200张图像时,该方法将所需的软标签从113 GB压缩到2.8 GB(40倍压缩),同时性能提升了2.6%。

🔬 方法详解

问题定义:现有数据集蒸馏方法,如ImageNet-condensation,为了保证蒸馏数据集的性能,需要存储大量的辅助软标签,其存储空间远大于蒸馏后的数据集本身。这给实际应用带来了很大的负担。现有方法在生成合成图像时,通常将来自不同类别的样本放在同一个batch中进行批归一化(BN)匹配,导致生成的合成图像类内相似度过高,需要复杂的软标签来区分。

核心思路:本文的核心思路是通过引入类内监督,提高合成图像的类内多样性,从而降低对大规模软标签的依赖。具体来说,就是改变batch的构建方式,不再混合不同类别的样本,而是将同一类别的样本放在同一个batch中进行处理。这样可以避免不同类别样本之间的相互影响,从而生成更多样化的合成图像。

技术框架:该方法主要包含两个阶段:图像合成和软标签压缩。在图像合成阶段,使用类内监督的方式生成合成图像。具体来说,对于每个类别,随机选择该类别中的若干样本,并将它们放在同一个batch中进行处理。然后,使用一个生成器网络来生成该batch对应的合成图像。在软标签压缩阶段,使用随机剪枝的方式来压缩软标签。具体来说,对于每个合成图像,随机选择一部分标签进行保留,其余标签则被置为0。

关键创新:该方法最重要的创新点在于引入了类内监督。通过类内监督,可以有效地提高合成图像的类内多样性,从而降低对大规模软标签的依赖。此外,该方法还提出了一种简单的随机剪枝方法来进行软标签压缩,避免了使用复杂的基于规则的策略。

关键设计:在图像合成阶段,使用了生成对抗网络(GAN)作为生成器网络。损失函数包括对抗损失、重构损失和类内一致性损失。类内一致性损失用于保证同一类别中的合成图像具有相似的特征。在软标签压缩阶段,随机剪枝的比例是一个重要的参数。实验表明,适当的剪枝比例可以在保证性能的同时,大幅压缩软标签的大小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在将ImageNet-1K压缩到每类200张图像时,可以将所需的软标签从113 GB压缩到2.8 GB(40倍压缩),同时性能提升了2.6%。这表明该方法可以在大幅压缩软标签的同时,还能提升数据集蒸馏的性能。此外,该方法使用的随机剪枝方法简单有效,易于实现。

🎯 应用场景

该研究成果可应用于大规模数据集的压缩和蒸馏,降低存储和计算成本,加速模型训练和部署。例如,在资源受限的边缘设备上部署大型模型时,可以先使用该方法对数据集进行压缩,然后再进行模型训练,从而降低对存储空间和计算能力的要求。此外,该方法还可以用于数据增强,生成更多样化的训练数据,提高模型的泛化能力。

📄 摘要(原文)

In ImageNet-condensation, the storage for auxiliary soft labels exceeds that of the condensed dataset by over 30 times. However, are large-scale soft labels necessary for large-scale dataset distillation? In this paper, we first discover that the high within-class similarity in condensed datasets necessitates the use of large-scale soft labels. This high within-class similarity can be attributed to the fact that previous methods use samples from different classes to construct a single batch for batch normalization (BN) matching. To reduce the within-class similarity, we introduce class-wise supervision during the image synthesizing process by batching the samples within classes, instead of across classes. As a result, we can increase within-class diversity and reduce the size of required soft labels. A key benefit of improved image diversity is that soft label compression can be achieved through simple random pruning, eliminating the need for complex rule-based strategies. Experiments validate our discoveries. For example, when condensing ImageNet-1K to 200 images per class, our approach compresses the required soft labels from 113 GB to 2.8 GB (40x compression) with a 2.6% performance gain. Code is available at: https://github.com/he-y/soft-label-pruning-for-dataset-distillation