ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation
作者: Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty, Vishnu Suresh Lokhande
分类: cs.CV, cs.LG
发布日期: 2026-02-28
💡 一句话要点
ManifoldGD:一种无训练的分层流形引导扩散数据集蒸馏方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数据集蒸馏 扩散模型 流形学习 无训练学习 生成模型
📋 核心要点
- 现有数据集蒸馏方法在处理大规模数据集时效率低下,且存在冗余概念,需要更有效的知识提炼方法。
- ManifoldGD通过在扩散模型的去噪过程中引入流形引导,约束生成过程在潜在流形上进行,从而提升数据集的代表性和多样性。
- 实验表明,ManifoldGD在FID、l2距离和分类精度上均优于现有方法,实现了更好的数据集蒸馏效果。
📝 摘要(中文)
本文提出了一种名为ManifoldGD的无训练扩散数据集蒸馏框架,该框架通过在每个去噪时间步整合流形一致性引导来解决现有方法的局限性。该方法利用VAE潜在特征的分层、分裂聚类计算实例原型中心(IPC),从而产生一个多尺度的IPC核心集,捕捉粗略的语义模式和精细的类内变异。通过提取的IPC中心点的局部邻域,为每个扩散去噪时间步创建潜在流形。在每个去噪步骤中,将模式对齐向量投影到估计的潜在流形的局部切空间上,从而约束生成轨迹保持流形忠实性,同时保持语义一致性。这种公式提高了代表性、多样性和图像保真度,而无需任何模型再训练。实验结果表明,在FID、真实和合成数据集嵌入之间的l2距离以及分类精度方面,相对于现有的无训练和基于训练的基线,ManifoldGD始终表现出优势,从而确立了ManifoldGD作为第一个几何感知无训练数据蒸馏框架的地位。
🔬 方法详解
问题定义:数据集蒸馏旨在合成紧凑的数据集,以保留大规模训练集的知识,同时大幅减少存储和计算。现有的基于扩散模型的无训练数据集蒸馏方法,要么执行无引导的去噪,要么依赖于简单的基于模式的引导,例如朝向实例原型中心(IPC中心)的引导,这些引导通常是初步的和次优的。这些方法无法充分利用数据的内在几何结构,导致合成数据集的代表性和多样性不足。
核心思路:ManifoldGD的核心思路是在扩散模型的去噪过程中,利用数据的潜在流形结构进行引导。通过将生成过程约束在流形上,可以更好地保留数据的语义信息和结构,从而生成更具代表性和多样性的合成数据集。这种方法无需任何模型再训练,可以直接利用预训练的扩散模型。
技术框架:ManifoldGD的整体框架包括以下几个主要步骤:1) 使用VAE提取原始数据集的潜在特征;2) 对潜在特征进行分层、分裂聚类,得到多尺度的IPC核心集;3) 在扩散模型的每个去噪时间步,计算当前噪声样本到IPC的模式对齐向量;4) 将模式对齐向量投影到估计的潜在流形的局部切空间上,得到流形引导向量;5) 利用流形引导向量更新噪声样本,进行去噪。
关键创新:ManifoldGD的关键创新在于引入了流形引导的概念,并将其应用于扩散模型的去噪过程中。通过将生成过程约束在流形上,可以更好地保留数据的语义信息和结构,从而生成更具代表性和多样性的合成数据集。此外,ManifoldGD采用分层聚类的方式提取多尺度的IPC,可以更好地捕捉数据的复杂结构。
关键设计:ManifoldGD的关键设计包括:1) 使用VAE提取潜在特征,VAE的选择会影响潜在空间的质量;2) 分层聚类的算法和参数设置,例如聚类数量和停止条件;3) 局部切空间的估计方法,例如使用PCA或局部线性嵌入;4) 模式对齐向量的计算方式,例如使用余弦相似度或欧氏距离;5) 流形引导向量的权重,需要平衡流形约束和模式对齐。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ManifoldGD在多个数据集上均优于现有的无训练和基于训练的基线方法。例如,在CIFAR-10数据集上,ManifoldGD在FID指标上取得了显著的提升,同时在l2距离和分类精度上也表现出更好的性能。这些结果证明了ManifoldGD在数据集蒸馏方面的有效性。
🎯 应用场景
ManifoldGD可应用于各种需要数据集蒸馏的场景,例如:降低模型训练的计算成本、减少存储空间需求、保护数据隐私、加速模型部署等。潜在的应用领域包括图像分类、目标检测、自然语言处理等。该方法能够提升小规模数据集的训练效果,并为资源受限的设备提供更高效的模型。
📄 摘要(原文)
In recent times, large datasets hinder efficient model training while also containing redundant concepts. Dataset distillation aims to synthesize compact datasets that preserve the knowledge of large-scale training sets while drastically reducing storage and computation. Recent advances in diffusion models have enabled training-free distillation by leveraging pre-trained generative priors; however, existing guidance strategies remain limited. Current score-based methods either perform unguided denoising or rely on simple mode-based guidance toward instance prototype centroids (IPC centroids), which often are rudimentary and suboptimal. We propose Manifold-Guided Distillation (ManifoldGD), a training-free diffusion-based framework that integrates manifold consistent guidance at every denoising timestep. Our method employs IPCs computed via a hierarchical, divisive clustering of VAE latent features, yielding a multi-scale coreset of IPCs that captures both coarse semantic modes and fine intra-class variability. Using a local neighborhood of the extracted IPC centroids, we create the latent manifold for each diffusion denoising timestep. At each denoising step, we project the mode-alignment vector onto the local tangent space of the estimated latent manifold, thus constraining the generation trajectory to remain manifold-faithful while preserving semantic consistency. This formulation improves representativeness, diversity, and image fidelity without requiring any model retraining. Empirical results demonstrate consistent gains over existing training-free and training-based baselines in terms of FID, l2 distance among real and synthetic dataset embeddings, and classification accuracy, establishing ManifoldGD as the first geometry-aware training-free data distillation framework.