Beyond Dataset Distillation: Lossless Dataset Concentration via Diffusion-Assisted Distribution Alignment
作者: Tongfei Liu, Yufan Liu, Bing Li, Weiming Hu
分类: cs.CV, cs.AI
发布日期: 2026-03-30
💡 一句话要点
提出DsCo框架,通过扩散模型对数据集进行无损压缩,提升训练效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 扩散模型 分布匹配 数据压缩 视觉识别
📋 核心要点
- 现有数据集蒸馏方法缺乏理论支撑,难以扩展到大数据集,且在无数据场景下失效。
- DsCo框架通过扩散模型进行噪声优化,合成代表性样本,并可选地掺杂原始数据以提升效率。
- DsCo在低数据量下达到SOTA,在高数据量下能显著压缩数据集且性能无损。
📝 摘要(中文)
大型数据集的高成本和可访问性问题阻碍了大规模视觉识别系统的发展。数据集蒸馏通过合成紧凑的替代数据集来解决这些问题,从而实现高效的训练、存储、传输和隐私保护。目前最先进的基于扩散的数据集蒸馏方法面临三个问题:缺乏理论依据、在高数据量下的扩展效率低下以及在无数据场景中的失效。为了解决这些问题,我们建立了一个理论框架,通过证明数据集蒸馏和分布匹配之间的等价性来证明扩散模型的合理性,并揭示了数据集蒸馏范式中固有的效率限制。然后,我们提出了一个数据集浓缩(DsCo)框架,该框架使用基于扩散的噪声优化(NOpt)方法来合成一个小的但具有代表性的样本集,并可选择通过“掺杂”来增强合成数据,即将来自原始数据集的选定样本与合成样本混合,以克服数据集蒸馏的效率限制。DsCo适用于数据可访问和无数据场景,在低数据量下实现了SOTA性能,并且可以很好地扩展到高数据量,在几乎不降低性能的情况下将数据集大小减少近一半。
🔬 方法详解
问题定义:论文旨在解决大规模视觉识别系统中,由于数据集过大导致的训练成本高昂、存储困难以及数据传输不便等问题。现有的数据集蒸馏方法,特别是基于扩散模型的方法,存在理论依据不足、无法有效扩展到高数据量以及在完全无数据场景下无法工作等痛点。
核心思路:论文的核心思路是将数据集蒸馏问题转化为分布匹配问题,并利用扩散模型强大的生成能力来合成能够代表原始数据分布的少量样本。通过理论证明,数据集蒸馏与分布匹配是等价的,从而为使用扩散模型进行数据集蒸馏提供了理论基础。此外,为了克服数据集蒸馏固有的效率限制,论文引入了“掺杂”策略,即混合少量原始数据与合成数据,以提升模型的泛化能力。
技术框架:DsCo框架主要包含两个阶段:噪声优化(NOpt)和可选的掺杂(Doping)。在NOpt阶段,利用扩散模型生成合成样本,并通过优化噪声来使合成样本的分布尽可能接近原始数据分布。在Doping阶段,将少量从原始数据集中选择的样本与合成样本混合,以进一步提升模型的性能。整个框架可以应用于数据可访问和无数据两种场景。
关键创新:论文的关键创新在于:1) 从理论上证明了数据集蒸馏与分布匹配的等价性,为使用扩散模型进行数据集蒸馏提供了理论依据;2) 提出了DsCo框架,该框架能够有效地合成代表原始数据分布的少量样本,并可选地通过掺杂原始数据来提升性能;3) 提出了基于扩散模型的噪声优化(NOpt)方法,用于生成高质量的合成样本。
关键设计:在NOpt阶段,论文使用扩散模型作为生成器,并设计了一个损失函数来衡量合成样本分布与原始数据分布之间的差异。该损失函数可以基于不同的距离度量,例如Wasserstein距离或KL散度。在Doping阶段,论文采用了一种基于信息量的样本选择策略,选择对模型性能提升最大的原始数据样本进行掺杂。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DsCo框架在低数据量下达到了SOTA性能,例如在CIFAR-10数据集上,使用1%的数据量进行训练,DsCo的性能优于其他数据集蒸馏方法。在高数据量下,DsCo能够将数据集大小减少近一半,而性能几乎没有下降。此外,DsCo在数据可访问和无数据两种场景下均表现良好,证明了其通用性和鲁棒性。
🎯 应用场景
该研究成果可应用于资源受限的边缘设备,例如移动机器人和嵌入式系统,在这些场景下,存储空间和计算能力有限。通过使用DsCo框架压缩数据集,可以在这些设备上部署更复杂的视觉识别模型,从而提高其智能化水平。此外,该方法还可以用于保护数据隐私,通过只共享合成数据集,避免泄露原始数据的信息。
📄 摘要(原文)
The high cost and accessibility problem associated with large datasets hinder the development of large-scale visual recognition systems. Dataset Distillation addresses these problems by synthesizing compact surrogate datasets for efficient training, storage, transfer, and privacy preservation. The existing state-of-the-art diffusion-based dataset distillation methods face three issues: lack of theoretical justification, poor efficiency in scaling to high data volumes, and failure in data-free scenarios. To address these issues, we establish a theoretical framework that justifies the use of diffusion models by proving the equivalence between dataset distillation and distribution matching, and reveals an inherent efficiency limit in the dataset distillation paradigm. We then propose a Dataset Concentration (DsCo) framework that uses a diffusion-based Noise-Optimization (NOpt) method to synthesize a small yet representative set of samples, and optionally augments the synthetic data via "Doping", which mixes selected samples from the original dataset with the synthetic samples to overcome the efficiency limit of dataset distillation. DsCo is applicable in both data-accessible and data-free scenarios, achieving SOTA performances for low data volumes, and it extends well to high data volumes, where it nearly reduces the dataset size by half with no performance degradation.