PRISM: Precision-Recall Informed Data-Free Knowledge Distillation via Generative Diffusion
作者: Xuewan He, Jielei Wang, Zihan Cheng, Yuchen Su, Shiyue Huang, Guoming Lu
分类: cs.CV
发布日期: 2025-09-21
💡 一句话要点
PRISM:通过生成扩散模型实现精确率-召回率指导的无数据知识蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无数据知识蒸馏 生成扩散模型 精确率-召回率 能量引导 提示工程 领域泛化 图像合成
📋 核心要点
- 现有无数据知识蒸馏方法在大规模图像合成时易出现模式崩溃,限制了知识迁移效果。
- PRISM提出一种精确率-召回率指导的合成方法,通过能量引导和多样化提示工程提升数据质量。
- 实验表明,PRISM在多个大规模图像数据集上优于现有方法,并提升了模型的领域泛化能力。
📝 摘要(中文)
无数据知识蒸馏(DFKD)在无法访问真实分布内(ID)数据的情况下,将知识从教师模型迁移到学生模型。现有方法在小规模图像上表现良好,但在合成大规模图像时容易出现模式崩溃,导致知识迁移受限。最近,利用先进的生成模型合成逼真的图像成为一种有前景的替代方案。然而,直接使用现成的扩散模型生成数据集面临精确率-召回率的挑战:1)确保合成数据与真实分布对齐,2)确保覆盖真实ID流形。为此,我们提出PRISM,一种精确率-召回率指导的合成方法。具体来说,我们引入能量引导的分布对齐,以避免生成分布外样本,并设计多样化的提示工程,以增强对真实ID流形的覆盖。在各种大规模图像数据集上的大量实验证明了PRISM的优越性。此外,我们证明了使用PRISM训练的模型表现出强大的领域泛化能力。
🔬 方法详解
问题定义:论文旨在解决无数据知识蒸馏(DFKD)中,利用生成模型合成大规模图像时面临的精确率和召回率问题。现有方法在合成大规模图像时容易出现模式崩溃,导致合成数据质量不高,无法有效进行知识迁移。痛点在于如何生成既符合真实数据分布,又能覆盖真实数据流形的数据。
核心思路:论文的核心思路是结合能量引导和多样化提示工程,在生成过程中同时优化合成数据的精确率和召回率。通过能量引导避免生成分布外样本,保证合成数据的精确率;通过多样化提示工程,尽可能覆盖真实数据流形,保证合成数据的召回率。
技术框架:PRISM的整体框架包含两个主要模块:能量引导的分布对齐和多样化提示工程。首先,利用能量函数评估生成样本的质量,并引导生成过程朝着能量较低的方向进行,从而保证生成样本与真实数据分布对齐。然后,通过设计多样化的提示,鼓励生成模型探索不同的数据模式,从而提高对真实数据流形的覆盖。这两个模块协同工作,共同提升合成数据的质量。
关键创新:PRISM的关键创新在于将能量函数和提示工程结合起来,用于指导生成模型的训练,从而在无数据知识蒸馏中实现更好的性能。与现有方法相比,PRISM不仅关注生成数据的逼真度,还关注生成数据的多样性和分布对齐,从而更有效地进行知识迁移。
关键设计:在能量引导的分布对齐中,使用预训练的分类器提取特征,并计算生成样本的能量值。在多样化提示工程中,设计了一系列不同的提示,并使用这些提示来生成不同的样本。损失函数包括能量损失和多样性损失,用于优化生成模型的参数。具体参数设置未知。
📊 实验亮点
论文在多个大规模图像数据集上进行了实验,结果表明PRISM显著优于现有的无数据知识蒸馏方法。例如,在ImageNet数据集上,使用PRISM训练的学生模型比使用其他方法训练的学生模型提高了多个百分点的准确率。此外,实验还证明了使用PRISM训练的模型具有更强的领域泛化能力,在不同的数据集上表现出更好的性能。
🎯 应用场景
PRISM可应用于各种需要知识蒸馏但无法访问原始数据的场景,例如模型压缩、联邦学习和隐私保护等。通过生成高质量的合成数据,可以有效地将知识从大型教师模型迁移到小型学生模型,从而降低计算成本和存储需求。此外,PRISM还可以用于数据增强,提高模型的鲁棒性和泛化能力。
📄 摘要(原文)
Data-free knowledge distillation (DFKD) transfers knowledge from a teacher to a student without access to the real in-distribution (ID) data. While existing methods perform well on small-scale images, they suffer from mode collapse when synthesizing large-scale images, resulting in limited knowledge transfer. Recently, leveraging advanced generative models to synthesize photorealistic images has emerged as a promising alternative. Nevertheless, directly using off-the-shelf diffusion to generate datasets faces the precision-recall challenges: 1) ensuring synthetic data aligns with the real distribution, and 2) ensuring coverage of the real ID manifold. In response, we propose PRISM, a precision-recall informed synthesis method. Specifically, we introduce Energy-guided Distribution Alignment to avoid the generation of out-of-distribution samples, and design the Diversified Prompt Engineering to enhance coverage of the real ID manifold. Extensive experiments on various large-scale image datasets demonstrate the superiority of PRISM. Moreover, we demonstrate that models trained with PRISM exhibit strong domain generalization.