Dataset Distillation via Committee Voting
作者: Jiacheng Cui, Zhaoyi Li, Xiaochen Ma, Xinyue Bi, Yaxin Luo, Zhiqiang Shen
分类: cs.CV, cs.AI
发布日期: 2025-01-13
备注: Code at: https://github.com/Jiacheng8/CV-DD
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于委员会投票的数据集蒸馏方法CV-DD,提升小数据集泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 委员会投票 模型集成 软标签 泛化能力 模型压缩 知识蒸馏
📋 核心要点
- 现有数据集蒸馏方法在对齐原始数据和合成数据时存在偏差,且泛化能力受限。
- CV-DD通过集成多个模型的预测,生成高质量软标签,从而捕获更广泛的数据特征。
- 实验表明,CV-DD在各种数据集和图像数量下,均优于单模型/多模型蒸馏方法。
📝 摘要(中文)
数据集蒸馏旨在合成一个更小、更具代表性的数据集,保留原始数据的关键属性,从而以更少的计算资源实现高效的模型训练。以往的工作主要集中在改进原始数据和合成数据之间的对齐或匹配过程,或者提高大型数据集的蒸馏效率。本文提出了一种新颖且正交的方法,即用于数据集蒸馏的委员会投票(CV-DD),它利用多个模型或专家的集体智慧来创建高质量的蒸馏数据集。我们首先展示了如何通过利用模型设计和优化过程中的最新进展和周到的调整来建立一个强大的基线,该基线已经实现了最先进的准确性。通过在生成高质量软标签时整合来自模型委员会的分布和预测,我们的方法捕获了更广泛的数据特征,减少了模型特定的偏差和分布偏移的不利影响,从而显著提高了泛化能力。这种基于投票的策略不仅促进了蒸馏数据集中的多样性和鲁棒性,而且显著减少了过拟合,从而提高了后评估任务的性能。在各种数据集和每个类别的图像数量(IPCs)上的大量实验表明,与单模型/多模型蒸馏方法相比,委员会投票产生了更可靠和适应性更强的数据,证明了其在高效和准确的数据集蒸馏方面的潜力。
🔬 方法详解
问题定义:数据集蒸馏旨在用远小于原始数据集的合成数据集训练模型,以减少计算资源消耗。现有方法,如直接匹配梯度或特征,容易受到模型偏差的影响,导致蒸馏数据集的泛化能力不足,尤其是在数据分布存在偏移的情况下。
核心思路:CV-DD的核心思想是利用“委员会投票”机制,通过集成多个模型的预测结果来生成更鲁棒、更具代表性的软标签。这种方法旨在减少单个模型的偏差,并捕获数据分布的更全面信息,从而提高蒸馏数据集的泛化能力。
技术框架:CV-DD的整体流程如下:1) 使用不同的模型架构或训练策略训练一个模型委员会。2) 对于原始数据集中的每个样本,委员会中的每个模型都生成一个预测分布。3) 将这些预测分布进行聚合(例如,通过平均或加权平均),得到一个更准确、更鲁棒的软标签。4) 使用这些软标签作为目标,训练一个生成器网络来合成蒸馏数据集。5) 使用蒸馏数据集训练下游模型进行评估。
关键创新:CV-DD的关键创新在于使用委员会投票来生成高质量的软标签。与以往依赖单个模型或简单平均多个模型特征的方法不同,CV-DD通过考虑多个模型的预测分布,有效地减少了模型偏差,并捕获了更丰富的数据信息。这种方法能够生成更具代表性的蒸馏数据集,从而提高下游模型的泛化能力。
关键设计:在CV-DD中,委员会模型的选择至关重要,需要保证模型的多样性,例如使用不同的网络结构(ResNet、VGG等)或不同的训练策略(数据增强、正则化等)。软标签的聚合方式也很重要,可以采用简单的平均,也可以根据模型的性能进行加权平均。此外,生成器网络的设计也需要考虑,可以使用GAN或VAE等生成模型,并采用合适的损失函数(例如,交叉熵损失或KL散度)来训练生成器网络。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了CV-DD的有效性。在多个数据集和不同的IPCs下,CV-DD均优于现有的数据集蒸馏方法。例如,在CIFAR-10数据集上,使用10个IPCs时,CV-DD的性能比最先进的方法提高了显著的百分比。实验结果表明,CV-DD能够生成更可靠和适应性更强的蒸馏数据集。
🎯 应用场景
CV-DD可应用于资源受限场景下的模型训练,例如边缘计算设备或移动设备。通过使用蒸馏数据集,可以在这些设备上高效地训练模型,而无需访问原始的大型数据集。此外,CV-DD还可以用于数据隐私保护,通过发布蒸馏数据集,可以在不泄露原始数据的情况下,实现模型的共享和复用。
📄 摘要(原文)
Dataset distillation aims to synthesize a smaller, representative dataset that preserves the essential properties of the original data, enabling efficient model training with reduced computational resources. Prior work has primarily focused on improving the alignment or matching process between original and synthetic data, or on enhancing the efficiency of distilling large datasets. In this work, we introduce ${\bf C}$ommittee ${\bf V}$oting for ${\bf D}$ataset ${\bf D}$istillation (CV-DD), a novel and orthogonal approach that leverages the collective wisdom of multiple models or experts to create high-quality distilled datasets. We start by showing how to establish a strong baseline that already achieves state-of-the-art accuracy through leveraging recent advancements and thoughtful adjustments in model design and optimization processes. By integrating distributions and predictions from a committee of models while generating high-quality soft labels, our method captures a wider spectrum of data features, reduces model-specific biases and the adverse effects of distribution shifts, leading to significant improvements in generalization. This voting-based strategy not only promotes diversity and robustness within the distilled dataset but also significantly reduces overfitting, resulting in improved performance on post-eval tasks. Extensive experiments across various datasets and IPCs (images per class) demonstrate that Committee Voting leads to more reliable and adaptable distilled data compared to single/multi-model distillation methods, demonstrating its potential for efficient and accurate dataset distillation. Code is available at: https://github.com/Jiacheng8/CV-DD.