Breaking Class Barriers: Efficient Dataset Distillation via Inter-Class Feature Compensator

📄 arXiv: 2408.06927v3 📥 PDF

作者: Xin Zhang, Jiawei Du, Ping Liu, Joey Tianyi Zhou

分类: cs.CV, cs.LG

发布日期: 2024-08-13 (更新: 2025-03-05)

备注: Accepted to ICLR 2025


💡 一句话要点

提出Inter-class Feature Compensator (INFER),高效解决数据集蒸馏中的类间特征隔离问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 类间特征补偿 通用特征补偿器 数据压缩 模型加速

📋 核心要点

  1. 现有数据集蒸馏方法受限于类特定合成范式,忽略了类间特征分布,导致蒸馏效率和效果不佳。
  2. INFER通过通用特征补偿器(UFC)增强跨类特征集成,从单个输入生成多个合成实例,提升蒸馏预算利用率。
  3. INFER通过类间特征补偿,优化合成数据,显著降低软标签大小,并在ImageNet-1k上超越现有方法。

📝 摘要(中文)

数据集蒸馏旨在将大型自然数据集中的信息特征压缩成紧凑的合成形式。虽然最近的技术有所改进,但其性能受到主流的类特定合成范式的限制。在这种范式下,合成数据仅针对预先分配的one-hot标签进行优化,从而在特征压缩中产生隐式的类间壁垒。这导致蒸馏预算的低效利用和对类间特征分布的忽视,最终限制了有效性和效率。为了克服这些限制,本文提出了类间特征补偿器(INFER),这是一种创新的蒸馏方法,超越了当前数据集蒸馏方法中广泛使用的类特定数据标签框架。具体来说,INFER利用通用特征补偿器(UFC)来增强跨类的特征集成,从而能够从单个UFC输入生成多个额外的合成实例,显著提高了蒸馏预算的效率。此外,INFER丰富了蒸馏过程中的类间交互,从而提高了蒸馏数据的有效性和泛化能力。通过允许类似于原始数据集中的标签的线性插值,INFER精心优化了合成数据,并将合成数据集中软标签的大小显著降低到几乎为零,为数据集蒸馏的效率和有效性建立了新的基准。在实践中,INFER在基准数据集上表现出最先进的性能。例如,在使用ResNet18的ImageNet-1k上,ipc = 50设置下,在相同压缩级别下,它比SRe2L提高了34.5%。

🔬 方法详解

问题定义:现有数据集蒸馏方法主要采用类特定合成范式,即每个合成样本只对应一个one-hot标签。这种方式忽略了不同类别之间的特征关联,导致蒸馏出的数据集泛化能力受限,且蒸馏预算利用率不高。现有方法难以有效捕捉和利用类间信息,限制了蒸馏数据集的性能。

核心思路:INFER的核心思路是打破类间壁垒,通过引入通用特征补偿器(UFC)来促进跨类别的特征融合。UFC可以生成多个合成实例,每个实例可以对应不同的标签组合,从而更全面地捕捉数据集的特征分布。通过允许标签的线性插值,INFER能够更精细地优化合成数据,并减少软标签的大小。

技术框架:INFER主要包含以下几个关键模块:1) Universal Feature Compensator (UFC):用于生成初始的特征表示。2) Feature Integration Module:将UFC生成的特征与其他类别的特征进行融合,生成多个合成实例。3) Label Interpolation Module:允许对标签进行线性插值,生成更丰富的标签信息。4) Optimization Module:通过优化合成数据和标签,最小化训练损失。整体流程是,首先通过UFC生成特征,然后通过特征集成和标签插值生成多个合成实例,最后通过优化模块进行训练。

关键创新:INFER最重要的创新点在于引入了Universal Feature Compensator (UFC) 和类间特征补偿机制,打破了传统数据集蒸馏方法中类特定的数据-标签框架。UFC允许从单个输入生成多个合成实例,显著提高了蒸馏预算的利用率。同时,通过类间特征补偿,INFER能够更好地捕捉数据集的整体特征分布,提高蒸馏数据集的泛化能力。

关键设计:INFER的关键设计包括:1) UFC的网络结构设计,需要能够生成具有代表性的特征表示。2) 特征集成模块的设计,需要能够有效地融合不同类别的特征。3) 标签插值模块的设计,需要能够生成合理的标签组合。4) 损失函数的设计,需要能够同时优化合成数据和标签,并鼓励类间特征的融合。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

INFER在多个基准数据集上取得了state-of-the-art的性能。例如,在ImageNet-1k数据集上,当ipc=50时,使用ResNet18作为 backbone,INFER比SRe2L方法提升了34.5%。实验结果表明,INFER能够有效地提高数据集蒸馏的效率和效果,并具有良好的泛化能力。

🎯 应用场景

INFER在数据压缩、模型加速、隐私保护等领域具有广泛的应用前景。例如,可以将大型数据集蒸馏成小规模的合成数据集,用于在资源受限的设备上进行模型训练。此外,蒸馏后的数据集可以用于数据增强,提高模型的鲁棒性。在隐私保护方面,可以使用蒸馏后的数据集代替原始数据集,避免敏感信息的泄露。

📄 摘要(原文)

Dataset distillation has emerged as a technique aiming to condense informative features from large, natural datasets into a compact and synthetic form. While recent advancements have refined this technique, its performance is bottlenecked by the prevailing class-specific synthesis paradigm. Under this paradigm, synthetic data is optimized exclusively for a pre-assigned one-hot label, creating an implicit class barrier in feature condensation. This leads to inefficient utilization of the distillation budget and oversight of inter-class feature distributions, which ultimately limits the effectiveness and efficiency, as demonstrated in our analysis. To overcome these constraints, this paper presents the Inter-class Feature Compensator (INFER), an innovative distillation approach that transcends the class-specific data-label framework widely utilized in current dataset distillation methods. Specifically, INFER leverages a Universal Feature Compensator (UFC) to enhance feature integration across classes, enabling the generation of multiple additional synthetic instances from a single UFC input. This significantly improves the efficiency of the distillation budget. Moreover, INFER enriches inter-class interactions during the distillation, thereby enhancing the effectiveness and generalizability of the distilled data. By allowing for the linear interpolation of labels similar to those in the original dataset, INFER meticulously optimizes the synthetic data and dramatically reduces the size of soft labels in the synthetic dataset to almost zero, establishing a new benchmark for efficiency and effectiveness in dataset distillation. In practice, INFER demonstrates state-of-the-art performance across benchmark datasets. For instance, in the ipc = 50 setting on ImageNet-1k with the same compression level, it outperforms SRe2L by 34.5% using ResNet18.