Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?

作者: Lingao Xiao, Yang He

分类: cs.CV

发布日期: 2024-10-21 (更新: 2024-11-03)

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出类内监督的数据集蒸馏方法，显著压缩软标签大小并提升性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 软标签压缩 类内监督 图像合成 批归一化

📋 核心要点

现有数据集蒸馏方法依赖大规模软标签，存储开销巨大，限制了其应用。
通过引入类内监督，增加合成图像的类内多样性，降低对大规模软标签的依赖。
实验表明，该方法在大幅压缩软标签的同时，还能提升数据集蒸馏的性能。

📝 摘要（中文）

在ImageNet数据集压缩中，辅助软标签的存储量超过压缩数据集的30倍。本文旨在探究大规模软标签对于大规模数据集蒸馏是否必要。研究发现，压缩数据集中类内高相似性是使用大规模软标签的必要条件。这种高相似性源于先前方法在批归一化(BN)匹配时，使用来自不同类别的样本构建单个批次。为了降低类内相似性，本文通过在图像合成过程中按类别进行批处理，引入类内监督。这增加了类内多样性，并减少了所需软标签的大小。图像多样性的一个关键优势是，可以通过简单的随机剪枝实现软标签压缩，无需复杂的基于规则的策略。实验验证了这些发现。例如，当将ImageNet-1K压缩到每类200张图像时，该方法将所需的软标签从113 GB压缩到2.8 GB（40倍压缩），同时性能提升了2.6%。

🔬 方法详解

问题定义：现有数据集蒸馏方法，如ImageNet-condensation，为了保证蒸馏数据集的性能，需要存储大量的辅助软标签，其存储空间远大于蒸馏后的数据集本身。这给实际应用带来了很大的负担。现有方法在生成合成图像时，通常将来自不同类别的样本放在同一个batch中进行批归一化(BN)匹配，导致生成的合成图像类内相似度过高，需要复杂的软标签来区分。

核心思路：本文的核心思路是通过引入类内监督，提高合成图像的类内多样性，从而降低对大规模软标签的依赖。具体来说，就是改变batch的构建方式，不再混合不同类别的样本，而是将同一类别的样本放在同一个batch中进行处理。这样可以避免不同类别样本之间的相互影响，从而生成更多样化的合成图像。

技术框架：该方法主要包含两个阶段：图像合成和软标签压缩。在图像合成阶段，使用类内监督的方式生成合成图像。具体来说，对于每个类别，随机选择该类别中的若干样本，并将它们放在同一个batch中进行处理。然后，使用一个生成器网络来生成该batch对应的合成图像。在软标签压缩阶段，使用随机剪枝的方式来压缩软标签。具体来说，对于每个合成图像，随机选择一部分标签进行保留，其余标签则被置为0。

关键创新：该方法最重要的创新点在于引入了类内监督。通过类内监督，可以有效地提高合成图像的类内多样性，从而降低对大规模软标签的依赖。此外，该方法还提出了一种简单的随机剪枝方法来进行软标签压缩，避免了使用复杂的基于规则的策略。

关键设计：在图像合成阶段，使用了生成对抗网络(GAN)作为生成器网络。损失函数包括对抗损失、重构损失和类内一致性损失。类内一致性损失用于保证同一类别中的合成图像具有相似的特征。在软标签压缩阶段，随机剪枝的比例是一个重要的参数。实验表明，适当的剪枝比例可以在保证性能的同时，大幅压缩软标签的大小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在将ImageNet-1K压缩到每类200张图像时，可以将所需的软标签从113 GB压缩到2.8 GB（40倍压缩），同时性能提升了2.6%。这表明该方法可以在大幅压缩软标签的同时，还能提升数据集蒸馏的性能。此外，该方法使用的随机剪枝方法简单有效，易于实现。

🎯 应用场景

该研究成果可应用于大规模数据集的压缩和蒸馏，降低存储和计算成本，加速模型训练和部署。例如，在资源受限的边缘设备上部署大型模型时，可以先使用该方法对数据集进行压缩，然后再进行模型训练，从而降低对存储空间和计算能力的要求。此外，该方法还可以用于数据增强，生成更多样化的训练数据，提高模型的泛化能力。

📄 摘要（原文）

In ImageNet-condensation, the storage for auxiliary soft labels exceeds that of the condensed dataset by over 30 times. However, are large-scale soft labels necessary for large-scale dataset distillation? In this paper, we first discover that the high within-class similarity in condensed datasets necessitates the use of large-scale soft labels. This high within-class similarity can be attributed to the fact that previous methods use samples from different classes to construct a single batch for batch normalization (BN) matching. To reduce the within-class similarity, we introduce class-wise supervision during the image synthesizing process by batching the samples within classes, instead of across classes. As a result, we can increase within-class diversity and reduce the size of required soft labels. A key benefit of improved image diversity is that soft label compression can be achieved through simple random pruning, eliminating the need for complex rule-based strategies. Experiments validate our discoveries. For example, when condensing ImageNet-1K to 200 images per class, our approach compresses the required soft labels from 113 GB to 2.8 GB (40x compression) with a 2.6% performance gain. Code is available at: https://github.com/he-y/soft-label-pruning-for-dataset-distillation

Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理