Improving Diversity in Black-box Few-shot Knowledge Distillation
作者: Tri-Nhan Vo, Dang Nguyen, Kien Do, Sunil Gupta
分类: cs.CV, cs.LG
发布日期: 2026-04-28
期刊: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应多样性黑盒少样本知识蒸馏方法,提升学生模型精度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 少样本学习 生成对抗网络 模型压缩 黑盒模型
📋 核心要点
- 黑盒少样本知识蒸馏场景下,学生模型训练数据有限,且无法访问教师模型内部信息,是主要挑战。
- 提出一种新的GAN训练方案,自适应选择教师模型高置信度图像,提升生成图像的多样性。
- 在七个图像数据集上实验,结果表明该方法在少样本知识蒸馏任务中取得了state-of-the-art的性能。
📝 摘要(中文)
知识蒸馏(KD)是一种有效的模型压缩技术,可以将大型网络(教师模型)的知识迁移到小型网络(学生模型),同时尽可能减少性能损失。然而,大多数KD方法需要大量的训练数据和对教师模型的内部访问权限,这在实际应用中往往难以满足。因此,黑盒少样本KD应运而生,在这种设置下,学生模型仅使用少量图像和一个黑盒教师模型进行训练。现有方法通常生成额外的合成图像,但缺乏主动策略来提升这些图像的多样性,而多样性对于学生模型的学习至关重要。为了解决这些问题,我们提出了一种新的生成对抗网络训练方案,该方案自适应地选择教师模型下高置信度的图像,并将其引入到对抗学习中。我们的方法有助于扩展和提高蒸馏数据集的多样性,从而显著提高学生模型的准确性。通过大量的实验,我们在七个图像数据集上取得了优于其他少样本KD方法的最新结果。代码已在https://github.com/votrinhan88/divbfkd上公开。
🔬 方法详解
问题定义:论文旨在解决黑盒少样本知识蒸馏问题。现有方法在生成用于蒸馏的合成图像时,缺乏有效策略来保证生成图像的多样性,导致学生模型学习效果受限。痛点在于如何利用有限的数据和黑盒教师模型,生成高质量、多样化的数据,从而提升学生模型的性能。
核心思路:核心思路是通过GAN生成合成图像,并利用教师模型的预测置信度来指导GAN的训练过程,从而自适应地选择对学生模型学习有益的、具有高置信度的图像。通过这种方式,可以提升生成图像的多样性,并使得学生模型能够更好地学习教师模型的知识。
技术框架:整体框架包含一个生成器G和一个判别器D,以及一个黑盒教师模型T和一个学生模型S。G负责生成合成图像,D负责区分生成图像和真实图像。关键在于训练G时,不仅要欺骗D,还要使得生成的图像在教师模型T下具有较高的置信度。然后,使用生成的图像和教师模型的预测结果来训练学生模型S。
关键创新:关键创新在于提出了一种自适应选择高置信度图像的策略,将其融入到GAN的训练过程中。与现有方法相比,该方法能够更有效地提升生成图像的多样性,从而显著提高学生模型的准确性。这种主动选择策略是与现有被动生成策略的本质区别。
关键设计:在训练生成器G时,使用了对抗损失、置信度损失和多样性损失。对抗损失用于保证生成图像的真实性,置信度损失用于保证生成图像在教师模型下的高置信度,多样性损失用于鼓励生成图像的多样性。具体而言,置信度损失可以定义为生成图像在教师模型下的预测概率的负对数似然。多样性损失可以使用例如余弦距离等度量来衡量生成图像之间的差异。
🖼️ 关键图片
📊 实验亮点
论文在七个图像数据集上进行了实验,结果表明,所提出的方法在少样本知识蒸馏任务中取得了state-of-the-art的性能。例如,在miniImageNet数据集上,该方法相比于其他少样本KD方法,取得了显著的性能提升。实验结果验证了该方法在提升学生模型精度方面的有效性。
🎯 应用场景
该研究成果可应用于模型压缩、知识迁移等领域,尤其适用于数据稀缺或无法访问教师模型内部信息的场景。例如,在医疗影像分析、自动驾驶等领域,可以利用该方法将大型预训练模型的知识迁移到小型设备上,实现高效的边缘计算。
📄 摘要(原文)
Knowledge distillation (KD) is a well-known technique to effectively compress a large network (teacher) to a smaller network (student) with little sacrifice in performance. However, most KD methods require a large training set and internal access to the teacher, which are rarely available due to various restrictions. These challenges have originated a more practical setting known as black-box few-shot KD, where the student is trained with few images and a black-box teacher. Recent approaches typically generate additional synthetic images but lack an active strategy to promote their diversity, a crucial factor for student learning. To address these problems, we propose a novel training scheme for generative adversarial networks, where we adaptively select high-confidence images under the teacher's supervision and introduce them to the adversarial learning on-the-fly. Our approach helps expand and improve the diversity of the distillation set, significantly boosting student accuracy. Through extensive experiments, we achieve state-of-the-art results among other few-shot KD methods on seven image datasets. The code is available at https://github.com/votrinhan88/divbfkd.