Data-to-Model Distillation: Data-Efficient Learning Framework
作者: Ahmad Sajedi, Samir Khaki, Lucy Z. Liu, Ehsan Amjadian, Yuri A. Lawryshyn, Konstantinos N. Plataniotis
分类: cs.CV, cs.LG
发布日期: 2024-11-19
备注: Accepted in the 18th European Conference on Computer Vision (ECCV 2024), Milan, Italy, September 29 October 4, 2024
💡 一句话要点
提出数据到模型蒸馏(D2M)框架,实现高效、可扩展的数据集蒸馏。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 生成模型 知识蒸馏 数据高效学习 表征学习
📋 核心要点
- 现有数据集蒸馏方法计算效率低,难以扩展到高分辨率数据集,且对不同深度架构的泛化性差。
- D2M框架通过对齐真实图像和生成图像的表示,将知识提炼到生成模型的参数中,从而生成信息丰富的训练图像。
- 实验表明,D2M在多个数据集上表现优异,具有良好的重新蒸馏效率和跨架构泛化能力,并成功扩展到ImageNet-1K。
📝 摘要(中文)
数据集蒸馏旨在将大规模真实数据集的知识提炼成小而信息丰富的合成数据,使得在合成数据上训练的模型能够达到与在完整数据集上训练的模型相当的性能。然而,现有的数据集蒸馏方法通常面临计算效率低、难以扩展到复杂的高分辨率数据集以及对深度架构的泛化能力差等问题。这些方法通常需要在蒸馏比例改变时重新训练,因为知识嵌入在原始像素中。本文提出了一种名为数据到模型蒸馏(D2M)的新框架,通过对齐真实图像和生成图像中提取的丰富表示,将真实数据集的知识提炼到预训练生成模型的可学习参数中。学习到的生成模型可以为不同的蒸馏比例和深度架构生成信息丰富的训练图像。在15个不同分辨率的数据集上的大量实验表明,D2M具有卓越的性能、重新蒸馏效率和跨架构泛化能力。我们的方法有效地扩展到高分辨率128x128 ImageNet-1K。此外,我们验证了D2M在神经架构搜索等下游应用中的实际优势。
🔬 方法详解
问题定义:现有数据集蒸馏方法存在计算效率瓶颈,难以处理高分辨率图像,且蒸馏比例改变时需要重新训练。知识通常直接嵌入在合成图像的像素中,限制了其泛化能力和可重用性。
核心思路:D2M的核心思想是将数据集的知识转移到生成模型的参数中,而不是直接生成合成图像。通过训练生成模型,使其生成的图像能够匹配真实数据的特征表示,从而实现知识的有效压缩和泛化。这样,可以通过调整生成模型的参数来控制蒸馏比例,并生成适用于不同架构的训练数据。
技术框架:D2M框架包含以下主要步骤:1) 使用预训练的生成模型(如GAN或VAE);2) 从真实数据和生成数据中提取特征表示(例如,使用预训练的卷积神经网络);3) 通过最小化真实数据和生成数据的特征表示之间的差异来训练生成模型。训练完成后,可以使用该生成模型生成任意数量的合成图像,用于训练下游模型。
关键创新:D2M的关键创新在于将数据集蒸馏问题转化为生成模型的训练问题。与直接生成合成图像的方法不同,D2M学习的是一个生成模型,该模型可以根据需要生成不同数量和类型的合成数据。这种方法具有更高的灵活性和泛化能力,并且可以避免重新训练的需要。
关键设计:D2M的关键设计包括:1) 使用预训练的生成模型,以加速训练过程并提高生成图像的质量;2) 使用预训练的卷积神经网络提取特征表示,以捕捉图像的语义信息;3) 使用合适的损失函数(例如,均方误差或对比损失)来衡量真实数据和生成数据的特征表示之间的差异;4) 通过调整生成模型的参数来控制蒸馏比例和生成图像的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,D2M在多个数据集上优于现有的数据集蒸馏方法,尤其是在高分辨率图像和跨架构泛化方面。例如,D2M成功扩展到128x128 ImageNet-1K数据集,并在神经架构搜索任务中取得了显著的性能提升。D2M还展现出良好的重新蒸馏效率,能够在不同的蒸馏比例下快速生成高质量的合成数据。
🎯 应用场景
D2M框架可应用于各种需要数据高效学习的场景,例如:1) 资源受限的设备上的模型训练;2) 隐私保护的数据共享;3) 快速原型设计和模型微调;4) 神经架构搜索,通过高效的数据集蒸馏加速搜索过程。该方法能够降低数据收集和标注成本,并提高模型训练的效率和灵活性。
📄 摘要(原文)
Dataset distillation aims to distill the knowledge of a large-scale real dataset into small yet informative synthetic data such that a model trained on it performs as well as a model trained on the full dataset. Despite recent progress, existing dataset distillation methods often struggle with computational efficiency, scalability to complex high-resolution datasets, and generalizability to deep architectures. These approaches typically require retraining when the distillation ratio changes, as knowledge is embedded in raw pixels. In this paper, we propose a novel framework called Data-to-Model Distillation (D2M) to distill the real dataset's knowledge into the learnable parameters of a pre-trained generative model by aligning rich representations extracted from real and generated images. The learned generative model can then produce informative training images for different distillation ratios and deep architectures. Extensive experiments on 15 datasets of varying resolutions show D2M's superior performance, re-distillation efficiency, and cross-architecture generalizability. Our method effectively scales up to high-resolution 128x128 ImageNet-1K. Furthermore, we verify D2M's practical benefits for downstream applications in neural architecture search.