SAS: Semantic-aware Sampling for Generative Dataset Distillation
作者: Mingzhuo Li, Guang Li, Linfeng Ye, Jiafeng Mao, Takahiro Ogawa, Konstantinos N. Plataniotis, Miki Haseyama
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-05-18
备注: Published as a journal paper in IEEE OJSP
💡 一句话要点
SAS:利用语义感知采样进行生成式数据集精馏,提升精馏数据集的语义信息。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集精馏 语义感知 对比学习 CLIP模型 采样策略
📋 核心要点
- 现有数据集精馏方法侧重于数据分布匹配,忽略了精馏数据集中的高层语义信息。
- 本文提出一种语义感知的采样方法,利用CLIP模型作为语义先验,提升精馏数据集的类判别性和多样性。
- 实验结果表明,该方法在多个数据集和下游模型上均取得了性能提升,验证了语义信息融入数据集精馏的有效性。
📝 摘要(中文)
深度神经网络在各种任务中取得了显著的性能,但这种成功通常伴随着大规模训练数据带来的巨大计算和存储成本。数据集精馏通过构建紧凑而信息丰富的训练集来解决这一挑战,从而在保持下游性能的同时实现高效的模型训练。然而,大多数现有方法主要强调匹配数据分布或下游训练统计信息,而对保留精馏数据中的高层语义信息的关注有限。本文提出了一种语义感知的数据集精馏方法,利用对比语言-图像预训练(CLIP)作为后采样的语义先验。我们的目标是获得不仅紧凑,而且在语义上具有类判别性和多样性的精馏数据集。为此,我们设计了三个语义评分函数,用于量化预训练语义空间中的类相关性、类间可分性和集内多样性。基于现有精馏方法生成的图像池,我们进一步开发了一种有效的两阶段采样策略:第一阶段过滤语义上具有区分性的样本以形成可靠的候选集,第二阶段执行动态的多样性感知选择以减少冗余,同时保持语义覆盖。在多个数据集、图像池和下游模型上的大量实验证明了一致的性能提升,突出了将语义信息纳入数据集精馏的有效性。
🔬 方法详解
问题定义:数据集精馏旨在从大规模数据集中提取一个小的、具有代表性的子集,用于训练模型,以减少计算和存储成本。然而,现有方法主要关注数据分布的匹配,忽略了精馏数据集的语义信息,导致精馏后的数据集可能缺乏类判别性和多样性,从而影响下游任务的性能。
核心思路:本文的核心思路是利用预训练的对比语言-图像模型(CLIP)作为语义先验,指导数据集的采样过程。通过在CLIP的语义空间中评估候选样本的类相关性、类间可分性和集内多样性,选择具有代表性的样本,从而构建一个既紧凑又具有丰富语义信息的精馏数据集。这样设计的目的是为了让精馏后的数据集能够更好地保留原始数据集的语义信息,从而提升下游任务的性能。
技术框架:该方法采用两阶段采样策略。第一阶段,基于现有的数据集精馏方法生成一个图像池,然后利用语义评分函数过滤掉语义区分度低的样本,形成一个可靠的候选集。第二阶段,从候选集中进行动态的多样性感知选择,以减少冗余,同时保持语义覆盖。整个流程可以概括为:图像池生成 -> 语义评分 -> 候选集构建 -> 多样性感知选择 -> 精馏数据集。
关键创新:该方法最重要的创新点在于引入了语义感知的采样策略,利用预训练的CLIP模型作为语义先验,指导数据集的精馏过程。与现有方法相比,该方法更加关注精馏数据集的语义信息,从而能够更好地保留原始数据集的语义信息,提升下游任务的性能。此外,两阶段采样策略也能够有效地平衡类判别性和多样性。
关键设计:该方法设计了三个语义评分函数:类相关性评分用于衡量样本与所属类别的相关程度;类间可分性评分用于衡量不同类别之间的区分度;集内多样性评分用于衡量精馏数据集内部样本的多样性。这些评分函数基于CLIP模型的文本编码器和图像编码器,通过计算文本和图像特征之间的相似度来实现。此外,在多样性感知选择阶段,采用了一种动态的选择策略,根据已选样本的语义信息,动态调整剩余样本的选择概率,从而保证精馏数据集的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个数据集(例如CIFAR-10、CIFAR-100)和下游模型上均取得了显著的性能提升。例如,在CIFAR-10数据集上,使用该方法精馏后的数据集训练的模型,其准确率相比于使用原始数据集训练的模型,性能下降较小,甚至在某些情况下有所提升。与现有的数据集精馏方法相比,该方法能够更好地保留原始数据集的语义信息,从而提升下游任务的性能。
🎯 应用场景
该研究成果可应用于各种需要大规模数据集训练的深度学习任务中,尤其是在资源受限的环境下,例如移动设备或边缘计算平台。通过使用精馏后的数据集进行模型训练,可以显著降低计算和存储成本,同时保持甚至提升模型性能。此外,该方法还可以用于数据隐私保护,通过精馏数据集,可以在不泄露原始数据的情况下,训练出具有良好性能的模型。
📄 摘要(原文)
Deep neural networks have achieved impressive performance across a wide range of tasks, but this success often comes with substantial computational and storage costs due to large-scale training data. Dataset distillation addresses this challenge by constructing compact yet informative datasets that enable efficient model training while maintaining downstream performance. However, most existing approaches primarily emphasize matching data distributions or downstream training statistics, with limited attention to preserving high-level semantic information in the distilled data. In this work, we introduce a semantic-aware perspective for dataset distillation by leveraging Contrastive Language-Image Pretraining (CLIP) as a semantic prior for post-sampling. Our goal is to obtain distilled datasets that are not only compact but also semantically class-discriminative and diverse. To this end, we design three semantic scoring functions that quantify class relevance, inter-class separability, and intra-set diversity in a pretrained semantic space. Based on image pools generated by existing distillation methods, we further develop a two-stage strategy for effective sampling: the first stage filters semantically discriminative samples to form a reliable candidate set, and the second stage performs a dynamic diversity-aware selection to reduce redundancy while preserving semantic coverage. Extensive experiments across multiple datasets, image pools, and downstream models demonstrate consistent performance gains, highlighting the effectiveness of incorporating semantic information into dataset distillation.