Data-Efficient Generation for Dataset Distillation

📄 arXiv: 2409.03929v1 📥 PDF

作者: Zhe Li, Weitong Zhang, Sarah Cechnicka, Bernhard Kainz

分类: cs.CV

发布日期: 2024-09-05

备注: 13 pages, 7 figures


💡 一句话要点

提出基于条件潜在扩散模型的数据集蒸馏方法,提升合成图像质量与蒸馏效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 扩散模型 条件生成 图像合成 深度学习

📋 核心要点

  1. 现有数据集蒸馏方法生成的合成图像质量不高,影响下游任务性能,且蒸馏时间随合成图像数量增加而显著增长。
  2. 本文提出一种基于类条件潜在扩散模型的数据集蒸馏方法,旨在生成更逼真、高质量的合成图像,并提高蒸馏效率。
  3. 实验结果表明,该方法仅使用少量合成图像即可有效训练模型,并在CIFAR100和TinyImageNet数据集上取得了领先的性能。

📝 摘要(中文)

深度学习在图像任务中取得了显著成功,但数据存储和计算成本呈指数级增长,带来了严峻挑战。数据集蒸馏通过为每个类别合成少量图像来封装所有必要信息,从而应对这些挑战。目前的方法主要集中在匹配上,但存在合成图像不具可读性以及数据集性能不足以支持下游学习任务的问题。此外,即使每个类别的合成图像数量略有增加,蒸馏时间也会迅速超出范围。为了解决这些问题,本文训练了一个类条件潜在扩散模型,该模型能够生成带有标签的逼真合成图像。采样时间可以减少到每秒几十张图像。实验表明,仅使用少量合成图像即可有效地训练模型,并在大型真实测试集上进行评估。该方法在ECCV 2024数据集蒸馏挑战赛的CIFAR100和TinyImageNet数据集上均排名第一。

🔬 方法详解

问题定义:数据集蒸馏旨在用远小于原始数据集的合成数据集,训练出性能接近甚至超过原始数据集训练的模型。现有方法,如基于匹配的方法,生成的合成图像通常难以理解,且下游任务的性能提升有限。此外,随着每个类别合成图像数量的增加,蒸馏过程的计算成本会迅速增加,限制了其应用。

核心思路:本文的核心思路是利用类条件潜在扩散模型生成高质量的合成图像。扩散模型能够学习到数据的潜在分布,从而生成更逼真、多样化的图像。通过引入类别条件,可以控制生成图像的类别,从而实现数据集蒸馏的目的。这种方法旨在解决现有方法合成图像质量差和蒸馏效率低的问题。

技术框架:该方法主要包含两个阶段:1) 训练一个类条件潜在扩散模型,该模型以类别标签作为输入,生成对应类别的图像。2) 使用生成的合成图像训练下游模型。扩散模型的训练通常包括前向扩散过程和反向扩散过程。前向扩散过程逐渐向图像添加噪声,将其转换为纯噪声。反向扩散过程则从噪声中逐步恢复出图像。通过调整扩散过程的参数,可以控制生成图像的质量和多样性。

关键创新:该方法的关键创新在于将类条件潜在扩散模型应用于数据集蒸馏。与现有方法相比,扩散模型能够生成更逼真、高质量的合成图像,从而提高下游任务的性能。此外,扩散模型的采样速度较快,可以有效地减少蒸馏时间。利用潜在空间进行图像生成,降低了计算复杂度。

关键设计:该方法使用了一个类条件潜在扩散模型,该模型以类别标签作为输入。模型的具体结构可以根据具体任务进行调整。损失函数通常包括扩散模型的训练损失和下游任务的性能损失。通过联合优化这两个损失函数,可以提高合成图像的质量和下游任务的性能。在实验中,作者使用了特定的网络结构和参数设置,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在ECCV 2024数据集蒸馏挑战赛的CIFAR100和TinyImageNet数据集上均排名第一,证明了其在数据集蒸馏方面的优越性能。实验结果表明,该方法能够生成高质量的合成图像,并有效地提高下游任务的性能。与现有方法相比,该方法在合成图像质量和蒸馏效率方面均有显著提升。

🎯 应用场景

该研究成果可应用于数据隐私保护、模型压缩和加速等领域。通过使用合成数据集训练模型,可以避免直接使用敏感数据,从而保护数据隐私。此外,合成数据集通常比原始数据集小得多,可以用于训练更小的模型,从而实现模型压缩和加速。该方法在资源受限的环境下具有重要的应用价值。

📄 摘要(原文)

While deep learning techniques have proven successful in image-related tasks, the exponentially increased data storage and computation costs become a significant challenge. Dataset distillation addresses these challenges by synthesizing only a few images for each class that encapsulate all essential information. Most current methods focus on matching. The problems lie in the synthetic images not being human-readable and the dataset performance being insufficient for downstream learning tasks. Moreover, the distillation time can quickly get out of bounds when the number of synthetic images per class increases even slightly. To address this, we train a class conditional latent diffusion model capable of generating realistic synthetic images with labels. The sampling time can be reduced to several tens of images per seconds. We demonstrate that models can be effectively trained using only a small set of synthetic images and evaluated on a large real test set. Our approach achieved rank (1) in The First Dataset Distillation Challenge at ECCV 2024 on the CIFAR100 and TinyImageNet datasets.