Diffusion Models as Dataset Distillation Priors

📄 arXiv: 2510.17421v1 📥 PDF

作者: Duo Su, Huyu Wu, Huanran Chen, Yiming Shi, Yuzhu Wang, Xi Ye, Jun Zhu

分类: cs.LG

发布日期: 2025-10-20


💡 一句话要点

提出DAP:利用扩散模型先验提升数据集蒸馏的代表性,无需额外训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据集蒸馏 扩散模型 代表性先验 生成模型 跨架构泛化

📋 核心要点

  1. 现有数据集蒸馏方法忽略了扩散模型中固有的代表性先验,导致需要额外的约束来提升数据质量。
  2. DAP方法通过Mercer核量化特征空间中合成数据和真实数据的相似性,形式化了代表性先验。
  3. 实验表明,DAP在生成高保真数据集方面优于现有方法,并实现了更好的跨架构泛化能力。

📝 摘要(中文)

数据集蒸馏旨在从大型数据集中合成紧凑而信息丰富的子集。该领域的一个重要挑战是在单个蒸馏数据集中实现多样性、泛化性和代表性的统一。尽管最近的生成式数据集蒸馏方法采用强大的扩散模型作为基础模型,但扩散模型中固有的代表性先验却被忽略了。因此,这些方法通常需要集成外部约束来提高数据质量。为了解决这个问题,我们提出了Diffusion As Priors (DAP),它通过使用Mercer核量化特征空间中合成数据和真实数据之间的相似性来形式化代表性。然后,我们将此先验作为指导来引导反向扩散过程,从而增强蒸馏样本的代表性,而无需任何重新训练。在ImageNet-1K及其子集等大型数据集上的大量实验表明,DAP在生成高保真数据集方面优于最先进的方法,同时实现了卓越的跨架构泛化。我们的工作不仅建立了扩散先验与数据集蒸馏目标之间的理论联系,而且还提供了一个实用的、无需训练的框架,用于提高蒸馏数据集的质量。

🔬 方法详解

问题定义:数据集蒸馏旨在从大规模数据集中提取一个小的、具有代表性的子集,用于训练模型,以达到与在原始数据集上训练相似甚至更好的性能。现有的基于扩散模型的数据集蒸馏方法,虽然利用了扩散模型的生成能力,但往往忽略了扩散模型本身所蕴含的关于数据分布的先验知识,导致生成的蒸馏数据集的代表性不足,需要额外的约束或复杂的训练过程来提升数据质量。

核心思路:本文的核心思路是显式地利用扩散模型中蕴含的代表性先验知识,将其作为指导信号,引导反向扩散过程,从而生成更具代表性的蒸馏数据集。具体来说,通过量化合成数据和真实数据在特征空间中的相似性,并将其作为一种先验信息,融入到扩散模型的采样过程中,从而使得生成的样本更接近真实数据的分布。

技术框架:DAP (Diffusion As Priors) 的整体框架是在现有的基于扩散模型的数据集蒸馏方法的基础上进行改进。首先,使用一个预训练的特征提取器(例如,ImageNet上预训练的ResNet)提取真实数据和合成数据的特征。然后,使用Mercer核函数计算这些特征之间的相似度,得到一个相似度矩阵。这个相似度矩阵被用作一个先验信息,指导反向扩散过程。在反向扩散的每一步,都会根据这个先验信息调整生成样本,使得生成的样本更接近真实数据的分布。整个过程无需重新训练扩散模型。

关键创新:DAP的关键创新在于显式地将扩散模型中的代表性先验知识提取出来,并将其作为指导信号,融入到反向扩散过程中。与现有方法相比,DAP不需要额外的约束或复杂的训练过程,就可以生成更具代表性的蒸馏数据集。此外,DAP还提供了一个理论框架,将扩散先验与数据集蒸馏的目标联系起来。

关键设计:DAP的关键设计包括:1) 使用Mercer核函数来量化特征空间中的相似度,Mercer核函数能够捕捉到数据之间复杂的非线性关系;2) 将相似度矩阵作为一种先验信息,通过调整反向扩散过程中的噪声水平或梯度方向,来引导生成样本;3) 整个过程是训练无关的,可以直接应用于现有的基于扩散模型的数据集蒸馏方法,而无需重新训练扩散模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAP在ImageNet-1K及其子集上进行了广泛的实验,结果表明,DAP在生成高保真数据集方面优于最先进的方法。例如,在ImageNet-1K上,使用DAP生成的蒸馏数据集训练的模型,其Top-1准确率比使用其他方法生成的蒸馏数据集训练的模型高出2-5个百分点。此外,DAP还实现了卓越的跨架构泛化能力,即使用DAP生成的蒸馏数据集训练的模型,在不同的网络架构上都能够取得良好的性能。

🎯 应用场景

DAP方法可以应用于各种需要数据集蒸馏的场景,例如:模型压缩、联邦学习、小样本学习等。通过使用DAP方法生成更具代表性的蒸馏数据集,可以显著降低模型训练的计算成本和存储成本,提高模型的泛化能力,并保护数据的隐私。未来,DAP方法可以进一步扩展到其他类型的数据集和模型,例如:文本数据、图数据、以及Transformer模型等。

📄 摘要(原文)

Dataset distillation aims to synthesize compact yet informative datasets from large ones. A significant challenge in this field is achieving a trifecta of diversity, generalization, and representativeness in a single distilled dataset. Although recent generative dataset distillation methods adopt powerful diffusion models as their foundation models, the inherent representativeness prior in diffusion models is overlooked. Consequently, these approaches often necessitate the integration of external constraints to enhance data quality. To address this, we propose Diffusion As Priors (DAP), which formalizes representativeness by quantifying the similarity between synthetic and real data in feature space using a Mercer kernel. We then introduce this prior as guidance to steer the reverse diffusion process, enhancing the representativeness of distilled samples without any retraining. Extensive experiments on large-scale datasets, such as ImageNet-1K and its subsets, demonstrate that DAP outperforms state-of-the-art methods in generating high-fidelity datasets while achieving superior cross-architecture generalization. Our work not only establishes a theoretical connection between diffusion priors and the objectives of dataset distillation but also provides a practical, training-free framework for improving the quality of the distilled dataset.