UDD: Dataset Distillation via Mining Underutilized Regions
作者: Shiguang Wang, Zhongyu Zhang, Jian Cheng
分类: cs.CV
发布日期: 2024-08-29
备注: PRCV2024
💡 一句话要点
UDD:通过挖掘欠利用区域实现数据集蒸馏,提升合成数据利用率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 欠利用区域 合成数据 特征对比学习 模型优化
📋 核心要点
- 现有数据集蒸馏方法侧重优化过程,忽略了合成图像中欠利用区域的问题,导致合成数据利用率不高。
- UDD通过两种策略动态搜索并利用欠利用区域,使其更具信息性和区分性,从而提升合成数据集的利用率。
- 实验表明,UDD在多个数据集上超越了现有最佳方法,例如在CIFAR-10和CIFAR-100上分别提升了4.0%和3.7% (IPC=1)。
📝 摘要(中文)
本文提出了一种新的数据集蒸馏方法UDD,旨在解决合成图像中欠利用区域的问题。现有数据集蒸馏方法主要关注优化过程的设计,如梯度匹配、特征对齐和训练轨迹匹配,而忽略了合成图像中欠利用区域的问题。UDD通过两种欠利用区域搜索策略(基于响应的策略和基于数据抖动的策略)来识别和利用这些区域,使其更具信息性和区分性,从而提高合成数据集的利用率。此外,本文还分析了当前的模型优化问题,并设计了一种类别特征对比损失,以增强不同类别的区分性,缓解现有多种形式方法的缺点。实验结果表明,UDD提高了合成数据集的利用率,并在MNIST、FashionMNIST、SVHN、CIFAR-10和CIFAR-100等数据集上优于现有方法。例如,在IPC=1的情况下,通过挖掘欠利用区域,在CIFAR-10和CIFAR-100上的改进分别为4.0%和3.7%。
🔬 方法详解
问题定义:数据集蒸馏旨在生成一个小型合成数据集,使得在该数据集上训练的模型能够逼近在原始数据集上训练的模型的性能。现有的数据集蒸馏方法主要集中在优化训练过程,例如梯度匹配、特征对齐等,但忽略了合成图像中存在大量未被充分利用的区域,这些区域包含的信息不足,限制了合成数据集的有效性。
核心思路:UDD的核心思路是主动识别并利用合成图像中欠利用的区域,通过增强这些区域的信息量和区分性,提高整个合成数据集的利用率。通过动态调整欠利用区域,使得模型能够更加关注这些区域,从而学习到更具代表性的特征。
技术框架:UDD包含两个主要的模块:欠利用区域搜索策略和类别特征对比损失。欠利用区域搜索策略又分为两种:基于响应的策略和基于数据抖动的策略,分别适用于不同的情况。基于响应的策略通过分析模型对合成图像的响应来定位欠利用区域;基于数据抖动的策略则通过对合成图像进行微小的扰动来发现对模型影响较小的区域。类别特征对比损失旨在增强不同类别之间的区分性,缓解现有方法中多形式方法带来的问题。
关键创新:UDD的关键创新在于提出了利用欠利用区域来提升数据集蒸馏性能的思想,并设计了两种动态的欠利用区域搜索策略。与现有方法相比,UDD能够更加主动地挖掘和利用合成图像中的信息,从而提高合成数据集的质量。此外,类别特征对比损失进一步增强了不同类别之间的区分性。
关键设计:UDD使用了两种欠利用区域搜索策略。基于响应的策略通过计算模型输出的梯度来确定欠利用区域,梯度较小的区域被认为是欠利用的。基于数据抖动的策略则通过对图像进行随机的平移和旋转,观察模型输出的变化,变化较小的区域被认为是欠利用的。类别特征对比损失通过最小化同类别样本特征之间的距离,最大化不同类别样本特征之间的距离来增强类别区分性。具体的损失函数形式未知,需要查阅论文原文。
🖼️ 关键图片
📊 实验亮点
UDD在多个数据集上取得了显著的性能提升。在CIFAR-10数据集上,IPC=1时,UDD相比于现有最佳方法提升了4.0%;在CIFAR-100数据集上,IPC=1时,UDD提升了3.7%。实验结果表明,通过挖掘欠利用区域,UDD能够有效提高合成数据集的利用率,并提升模型的泛化性能。具体实验设置和更多数据集上的结果需要参考原文。
🎯 应用场景
UDD可应用于资源受限场景下的模型训练,例如边缘计算设备或移动设备。通过数据集蒸馏,可以使用更小的合成数据集训练模型,降低存储和计算成本。此外,该方法还可以用于数据隐私保护,通过合成数据集代替原始数据集进行模型训练,避免泄露敏感信息。未来,UDD有望在更多领域得到应用,例如自动驾驶、医疗诊断等。
📄 摘要(原文)
Dataset distillation synthesizes a small dataset such that a model trained on this set approximates the performance of the original dataset. Recent studies on dataset distillation focused primarily on the design of the optimization process, with methods such as gradient matching, feature alignment, and training trajectory matching. However, little attention has been given to the issue of underutilized regions in synthetic images. In this paper, we propose UDD, a novel approach to identify and exploit the underutilized regions to make them informative and discriminate, and thus improve the utilization of the synthetic dataset. Technically, UDD involves two underutilized regions searching policies for different conditions, i.e., response-based policy and data jittering-based policy. Compared with previous works, such two policies are utilization-sensitive, equipping with the ability to dynamically adjust the underutilized regions during the training process. Additionally, we analyze the current model optimization problem and design a category-wise feature contrastive loss, which can enhance the distinguishability of different categories and alleviate the shortcomings of the existing multi-formation methods. Experimentally, our method improves the utilization of the synthetic dataset and outperforms the state-of-the-art methods on various datasets, such as MNIST, FashionMNIST, SVHN, CIFAR-10, and CIFAR-100. For example, the improvements on CIFAR-10 and CIFAR-100 are 4.0\% and 3.7\% over the next best method with IPC=1, by mining the underutilized regions.