Diverse Image Priors for Black-box Data-free Knowledge Distillation

📄 arXiv: 2604.25794v1 📥 PDF

作者: Tri-Nhan Vo, Dang Nguyen, Trung Le, Kien Do, Sunil Gupta

分类: cs.LG, cs.CV

发布日期: 2026-04-28


💡 一句话要点

提出DIP-KD,解决黑盒无数据知识蒸馏中数据多样性不足的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 黑盒蒸馏 无数据学习 图像先验 对比学习 模型压缩 数据增强

📋 核心要点

  1. 黑盒无数据知识蒸馏面临数据隐私和获取限制,现有合成数据方法在多样性和蒸馏信号上存在不足。
  2. DIP-KD通过合成多样图像先验、对比学习增强区分性以及primer学生网络进行软概率蒸馏,提升知识迁移效果。
  3. 实验结果表明,DIP-KD在多个基准测试中取得了最先进的性能,并验证了数据多样性在知识获取中的重要性。

📝 摘要(中文)

知识蒸馏(KD)是一种重要的技术,可以将知识从复杂的教师网络迁移到高效的学生模型。然而,在去中心化或安全的AI生态系统中,隐私法规和专有利益通常限制了对教师接口和原始数据集的访问。这些约束定义了一个具有挑战性的黑盒无数据KD场景,其中只有top-1预测可用,而没有训练数据。虽然最近的方法利用合成数据,但它们仍然面临数据多样性和蒸馏信号的限制。我们提出了多样图像先验知识蒸馏(DIP-KD),该框架通过一个三阶段的协作流程来解决这些挑战:(1)合成图像先验以捕获多样化的视觉模式和语义;(2)通过对比学习增强合成样本之间的集体区分;(3)通过一种新颖的primer学生网络实现软概率KD。我们在12个基准测试上的评估表明,DIP-KD实现了最先进的性能,消融实验证实了数据多样性对于受限AI环境中知识获取的关键作用。

🔬 方法详解

问题定义:论文旨在解决黑盒无数据知识蒸馏(Black-box Data-free Knowledge Distillation)问题。在这种场景下,学生模型无法访问教师模型的训练数据,也无法直接访问教师模型的内部结构和参数,只能获取教师模型的top-1预测结果。现有方法通常依赖于生成合成数据进行蒸馏,但这些合成数据往往缺乏多样性,导致学生模型学习到的知识有限,性能提升受限。

核心思路:论文的核心思路是通过生成具有多样性的图像先验(Image Priors)来模拟真实数据,并利用对比学习增强这些合成数据之间的区分性,从而为学生模型提供更丰富、更有效的蒸馏信号。同时,设计了一种primer学生网络,以更好地利用这些合成数据进行知识蒸馏。

技术框架:DIP-KD框架包含三个主要阶段:1) 图像先验合成:生成多样化的图像先验,以覆盖不同的视觉模式和语义信息。2) 对比学习增强:通过对比学习,增强合成样本之间的区分性,使得学生模型更容易区分不同的类别。3) 知识蒸馏:利用primer学生网络,基于合成数据和教师模型的top-1预测结果进行知识蒸馏。

关键创新:论文的关键创新在于:1) 提出了利用多样图像先验来解决黑盒无数据知识蒸馏中数据多样性不足的问题。2) 引入对比学习来增强合成数据的区分性,从而提高蒸馏效果。3) 设计了一种primer学生网络,更有效地利用合成数据进行知识蒸馏。与现有方法相比,DIP-KD能够生成更具多样性和区分性的合成数据,从而使学生模型能够学习到更丰富的知识。

关键设计:在图像先验合成阶段,论文可能采用了GAN或者变分自编码器(VAE)等生成模型,并可能引入了不同的正则化项来鼓励生成数据的多样性。在对比学习阶段,论文可能采用了InfoNCE损失函数或者其他对比学习损失函数,以最大化正样本之间的相似性,最小化负样本之间的相似性。Primer学生网络可能采用了特殊的网络结构或者训练策略,以更好地适应合成数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DIP-KD在12个基准测试中取得了state-of-the-art的性能,显著优于现有的黑盒无数据知识蒸馏方法。消融实验表明,数据多样性是DIP-KD成功的关键因素,验证了该方法在提升合成数据质量方面的有效性。具体性能提升数据未知,但摘要中明确指出达到了最先进水平。

🎯 应用场景

DIP-KD适用于隐私敏感或数据受限的AI应用场景,例如联邦学习、边缘计算和安全AI系统。该方法可以帮助在无法访问原始数据的情况下,将知识从大型复杂模型迁移到小型高效模型,从而实现模型的轻量化部署和加速推理,同时保护数据隐私。

📄 摘要(原文)

Knowledge distillation (KD) represents a vital mechanism to transfer expertise from complex teacher networks to efficient student models. However, in decentralized or secure AI ecosystems, privacy regulations and proprietary interests often restrict access to the teacher's interface and original datasets. These constraints define a challenging black-box data-free KD scenario where only top-1 predictions and no training data are available. While recent approaches utilize synthetic data, they still face limitations in data diversity and distillation signals. We propose Diverse Image Priors Knowledge Distillation (DIP-KD), a framework that addresses these challenges through a three-phase collaborative pipeline: (1) Synthesis of image priors to capture diverse visual patterns and semantics; (2) Contrast to enhance the collective distinction between synthetic samples via contrastive learning; and (3) Distillation via a novel primer student that enables soft-probability KD. Our evaluation across 12 benchmarks shows that DIP-KD achieves state-of-the-art performance, with ablations confirming data diversity as critical for knowledge acquisition in restricted AI environments.