Adaptive Explicit Knowledge Transfer for Knowledge Distillation

📄 arXiv: 2409.01679v2 📥 PDF

作者: Hyungkeun Park, Jong-Seok Lee

分类: cs.CV, cs.AI

发布日期: 2024-09-03 (更新: 2024-09-05)

备注: 19 pages, 5 figures


💡 一句话要点

提出自适应显式知识迁移(AEKT)方法,提升Logit蒸馏性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 显式知识 隐式知识 自适应学习 深度学习 分类任务

📋 核心要点

  1. 基于Logit的知识蒸馏虽然高效,但性能受限,如何有效利用教师模型的知识是核心问题。
  2. 论文提出自适应显式知识迁移(AEKT)方法,通过梯度分析,自适应地控制隐式知识学习,并显式传递目标类别的置信度。
  3. 实验表明,AEKT方法在CIFAR-100和ImageNet数据集上优于现有知识蒸馏方法,验证了其有效性。

📝 摘要(中文)

本文针对分类任务中基于Logit的知识蒸馏(KD)方法,其虽然计算高效,但性能通常不如基于特征的KD。最近的研究表明,有效传递教师模型中非目标类别的概率分布(即“隐式知识”)到学生模型可以提高基于Logit的KD性能。通过梯度分析,我们首先证明了这实际上具有自适应控制隐式知识学习的效果。然后,我们提出了一种新的损失函数,使学生能够以自适应的方式学习显式知识(即教师对目标类别的置信度)以及隐式知识。此外,我们建议分离分类和蒸馏任务,以实现有效的蒸馏和类间关系建模。实验结果表明,所提出的自适应显式知识迁移(AEKT)方法在CIFAR-100和ImageNet数据集上与最先进的KD方法相比,实现了更高的性能。

🔬 方法详解

问题定义:基于Logit的知识蒸馏方法虽然计算效率高,但通常性能不如基于特征的知识蒸馏方法。现有的基于Logit的知识蒸馏方法在传递教师模型的隐式知识方面有所改进,但缺乏对显式知识(即教师模型对目标类别的置信度)的有效利用,并且忽略了分类和蒸馏任务之间的关联性。

核心思路:论文的核心思路是同时利用教师模型的显式知识和隐式知识,并以自适应的方式控制它们的学习过程。通过梯度分析,论文发现隐式知识的学习具有自适应性。因此,论文设计了一种新的损失函数,使学生模型能够自适应地学习显式知识和隐式知识。此外,论文将分类和蒸馏任务分离,以更好地建模类间关系,从而提升蒸馏效果。

技术框架:AEKT方法主要包含以下几个模块:1) 教师模型和学生模型;2) 分类损失函数,用于训练学生模型的分类能力;3) 蒸馏损失函数,用于将教师模型的知识迁移到学生模型。蒸馏损失函数由两部分组成:一部分用于迁移隐式知识,另一部分用于迁移显式知识。这两种知识的迁移都以自适应的方式进行。此外,论文还设计了一个额外的模块,用于分离分类和蒸馏任务,以更好地建模类间关系。

关键创新:AEKT方法的关键创新在于:1) 提出了自适应显式知识迁移的概念,通过梯度分析,自适应地控制隐式知识的学习,并显式地传递教师模型对目标类别的置信度;2) 设计了一种新的损失函数,使学生模型能够同时学习显式知识和隐式知识,并以自适应的方式控制它们的学习过程;3) 将分类和蒸馏任务分离,以更好地建模类间关系,从而提升蒸馏效果。

关键设计:AEKT方法的关键设计包括:1) 自适应系数的设计,用于控制显式知识和隐式知识的学习权重;2) 蒸馏损失函数的设计,包括显式知识迁移损失和隐式知识迁移损失;3) 分类和蒸馏任务分离模块的设计,用于建模类间关系。具体的损失函数形式和网络结构细节在论文中有详细描述,包括温度系数的设置等。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,AEKT方法在CIFAR-100数据集上取得了显著的性能提升,超越了现有的知识蒸馏方法。例如,在ResNet-8作为学生模型时,AEKT方法相比于基线方法提升了约2-3个百分点。在ImageNet数据集上,AEKT方法也取得了具有竞争力的结果,证明了其在更大规模数据集上的有效性。

🎯 应用场景

该研究成果可应用于各种需要模型压缩和加速的场景,例如移动设备上的图像识别、自动驾驶中的目标检测、以及资源受限环境下的边缘计算等。通过知识蒸馏,可以将大型、复杂的模型压缩成小型、高效的模型,从而在保证性能的同时,降低计算成本和存储空间需求。

📄 摘要(原文)

Logit-based knowledge distillation (KD) for classification is cost-efficient compared to feature-based KD but often subject to inferior performance. Recently, it was shown that the performance of logit-based KD can be improved by effectively delivering the probability distribution for the non-target classes from the teacher model, which is known as `implicit (dark) knowledge', to the student model. Through gradient analysis, we first show that this actually has an effect of adaptively controlling the learning of implicit knowledge. Then, we propose a new loss that enables the student to learn explicit knowledge (i.e., the teacher's confidence about the target class) along with implicit knowledge in an adaptive manner. Furthermore, we propose to separate the classification and distillation tasks for effective distillation and inter-class relationship modeling. Experimental results demonstrate that the proposed method, called adaptive explicit knowledge transfer (AEKT) method, achieves improved performance compared to the state-of-the-art KD methods on the CIFAR-100 and ImageNet datasets.