Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement
作者: Chuhao Zhou, Chenxi Jiang, Yi Xie, Haozhi Cao, Jianfei Yang
分类: cs.CV
发布日期: 2024-10-17
备注: ECCV 2024 Dataset Distillation Challenge
💡 一句话要点
M-DATM:通过消除标签不一致性和优化学习模式提升数据集蒸馏效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 轨迹匹配 软标签 标签一致性 模式学习 模型压缩 Tiny ImageNet
📋 核心要点
- 现有数据集蒸馏方法存在软标签不一致问题,导致模型性能下降,尤其是在复杂数据集上。
- M-DATM通过移除软标签,并调整匹配范围,使合成数据专注于学习更容易的模式,从而提升蒸馏效果。
- 实验表明,M-DATM在CIFAR-100和Tiny ImageNet数据集上取得了显著的性能提升,并在ECCV-2024比赛中获得第一名。
📝 摘要(中文)
数据集蒸馏(DD)旨在创建一个精简的数据集,该数据集在训练模型时,能够使模型达到与在整个原始数据集上训练的模型相似的性能。它减轻了模型训练处理海量数据的负担,从而降低了计算资源、存储和时间成本。本文阐述了我们在ECCV-2024数据蒸馏挑战赛(赛道1)中排名第一的解决方案。我们的解决方案,改进的难度对齐轨迹匹配(M-DATM),对原有的最先进方法DATM进行了两个关键修改:(1)DATM学习到的软标签与官方评估脚本生成的软标签没有一一对应的关系,因此我们移除了软标签技术以减轻这种不一致性;(2)由于移除软标签使得合成数据集更难学习到后期轨迹信息,特别是在Tiny ImageNet上,我们减少了匹配范围,使合成数据更专注于更容易的模式。在最终评估中,我们的M-DATM在CIFAR-100和Tiny ImageNet数据集上分别实现了0.4061和0.1831的准确率,在固定每类图像数量(IPC)赛道中排名第一。
🔬 方法详解
问题定义:数据集蒸馏旨在用一个远小于原始数据集的合成数据集,训练出性能接近于在原始数据集上训练的模型。现有方法,如DATM,虽然取得了不错的效果,但其使用的软标签技术与官方评估脚本生成的软标签之间存在不一致性,这会损害蒸馏数据集的质量,尤其是在Tiny ImageNet等更具挑战性的数据集上。
核心思路:M-DATM的核心思路是消除软标签带来的不一致性,并优化合成数据集的学习模式。通过移除软标签,避免了与官方评估脚本产生冲突。同时,为了弥补移除软标签带来的信息损失,M-DATM调整了轨迹匹配的范围,使合成数据能够更专注于学习更容易的模式,从而提高学习效率。
技术框架:M-DATM是在DATM的基础上进行改进的。整体框架仍然是基于轨迹匹配,即通过优化合成数据集,使其在训练过程中的参数轨迹与在原始数据集上训练的模型的参数轨迹尽可能接近。主要模块包括:合成数据集的初始化、模型训练、轨迹匹配损失计算和合成数据集的更新。M-DATM的关键在于对DATM的两个修改:移除软标签和调整匹配范围。
关键创新:M-DATM最重要的创新在于发现了并解决了软标签不一致的问题,并通过调整匹配范围来弥补移除软标签带来的信息损失。这种方法避免了复杂的软标签生成和对齐过程,简化了算法流程,同时提高了蒸馏效果。
关键设计:M-DATM的关键设计包括:(1) 完全移除软标签的使用,直接使用硬标签进行训练;(2) 减少轨迹匹配的范围,即只匹配训练过程中的一部分轨迹,而不是全部轨迹。具体来说,减少匹配范围意味着合成数据可以更专注于学习早期阶段的简单模式,从而更快地收敛。匹配范围的具体大小需要根据数据集的复杂程度进行调整,Tiny ImageNet需要更小的匹配范围。
🖼️ 关键图片
📊 实验亮点
M-DATM在ECCV-2024数据蒸馏挑战赛中排名第一,证明了其有效性。在CIFAR-100数据集上,M-DATM的准确率达到0.4061,在Tiny ImageNet数据集上,准确率达到0.1831。相较于原始的DATM方法,M-DATM在Tiny ImageNet上的提升尤为显著,表明其在处理复杂数据集时具有更强的优势。
🎯 应用场景
M-DATM在资源受限的场景下具有广泛的应用前景,例如移动设备、嵌入式系统和边缘计算。通过数据集蒸馏,可以将大型数据集压缩成更小的合成数据集,从而降低存储和计算成本,使得在这些设备上部署复杂的机器学习模型成为可能。此外,该技术还可以用于数据隐私保护,通过发布合成数据集代替原始数据集,避免敏感信息泄露。
📄 摘要(原文)
Dataset Distillation (DD) seeks to create a condensed dataset that, when used to train a model, enables the model to achieve performance similar to that of a model trained on the entire original dataset. It relieves the model training from processing massive data and thus reduces the computation resources, storage, and time costs. This paper illustrates our solution that ranks 1st in the ECCV-2024 Data Distillation Challenge (track 1). Our solution, Modified Difficulty-Aligned Trajectory Matching (M-DATM), introduces two key modifications to the original state-of-the-art method DATM: (1) the soft labels learned by DATM do not achieve one-to-one correspondence with the counterparts generated by the official evaluation script, so we remove the soft labels technique to alleviate such inconsistency; (2) since the removal of soft labels makes it harder for the synthetic dataset to learn late trajectory information, particularly on Tiny ImageNet, we reduce the matching range, allowing the synthetic data to concentrate more on the easier patterns. In the final evaluation, our M-DATM achieved accuracies of 0.4061 and 0.1831 on the CIFAR-100 and Tiny ImageNet datasets, ranking 1st in the Fixed Images Per Class (IPC) Track.