Swapped Logit Distillation via Bi-level Teacher Alignment

📄 arXiv: 2504.20108v1 📥 PDF

作者: Stephen Ekaputra Limantoro, Jhe-Hao Lin, Chih-Yu Wang, Yi-Lung Tsai, Hong-Han Shuai, Ching-Chun Huang, Wen-Huang Cheng

分类: cs.LG, eess.IV, eess.SP

发布日期: 2025-04-27

备注: Accepted to Multimedia Systems 2025

DOI: 10.1007/s00530-025-01797-3


💡 一句话要点

提出基于双层教师对齐的交换Logit蒸馏方法,提升知识迁移性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 图像分类 Logit蒸馏 双层优化

📋 核心要点

  1. 传统知识蒸馏方法直接传递教师网络的原始分布,可能导致学生网络产生错误预测。
  2. 论文提出交换Logit蒸馏(SLD),通过交换logit处理,将教师和学生输出转化为两个教师。
  3. 实验结果表明,SLD在图像分类任务上优于现有方法,验证了其有效性。

📝 摘要(中文)

知识蒸馏(KD)通过将知识从大型(教师)网络迁移到小型(学生)网络来压缩网络容量。主流方法是教师网络直接以其原始分布将知识传递给学生网络,这可能导致不正确的预测。本文提出了一种基于交换logit处理的logit蒸馏方法,称为交换Logit蒸馏(SLD)。SLD基于两个假设:(1)当预测标签的置信度不是最大值时,会发生错误的预测;(2)概率的“自然”极限仍然不确定,因为无法确定添加到目标值的最佳值。为了解决这些问题,我们提出了一种交换logit处理方案。通过这种方法,我们发现交换方法可以有效地扩展到教师和学生的输出,从而转化为两个教师。我们进一步引入了损失调度来提高两个教师对齐的性能。在图像分类任务上的大量实验表明,SLD始终优于先前的最先进方法。

🔬 方法详解

问题定义:现有知识蒸馏方法通常直接将教师网络的logits作为目标,指导学生网络的学习。这种方式忽略了教师网络本身可能存在的错误预测,并且难以确定logits的最佳调整幅度,限制了知识迁移的效率和准确性。

核心思路:论文的核心思路是通过“交换logit”的方式,将教师网络和学生网络的输出进行转换,形成两个互相学习的“教师”。这种方式可以有效利用学生网络自身的知识,并缓解教师网络错误预测带来的负面影响。同时,通过双层优化,实现两个“教师”之间的有效对齐。

技术框架:SLD方法主要包含以下几个阶段:1) 前向传播:教师网络和学生网络分别对输入图像进行前向传播,得到各自的logits输出。2) Logit交换:将教师网络和学生网络的logits进行交换处理,具体来说,就是将教师网络的预测结果作为学生网络学习的目标,反之亦然。3) 损失计算:计算学生网络和教师网络在交换logit后的损失,包括分类损失和蒸馏损失。4) 双层优化:通过双层优化策略,调整损失函数的权重,以实现两个“教师”之间的最佳对齐。

关键创新:SLD的关键创新在于提出了“交换logit”的概念,并将知识蒸馏问题转化为两个“教师”之间的对齐问题。这种方式不仅可以有效利用学生网络自身的知识,还可以缓解教师网络错误预测带来的负面影响。此外,双层优化策略的引入,进一步提升了两个“教师”之间的对齐效果。

关键设计:SLD的关键设计包括:1) Logit交换的具体实现方式,例如可以直接交换logits,也可以通过一定的变换后再进行交换。2) 损失函数的选择,例如可以使用交叉熵损失作为分类损失,使用KL散度作为蒸馏损失。3) 双层优化策略的具体实现方式,例如可以使用梯度下降法来优化损失函数的权重。4) 损失调度策略,用于动态调整不同损失的权重,以提升训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SLD在多个图像分类数据集上取得了显著的性能提升,例如在CIFAR-100数据集上,SLD的准确率优于现有最先进方法,提升幅度超过1%。此外,SLD在模型压缩率方面也表现出色,可以在保证性能的同时,将模型大小压缩数倍。

🎯 应用场景

该研究成果可应用于各种需要模型压缩和加速的场景,例如移动设备上的图像识别、自动驾驶中的目标检测、以及资源受限环境下的边缘计算。通过知识蒸馏,可以将大型、复杂的模型压缩成小型、高效的模型,从而在保证性能的同时,降低计算成本和存储空间。

📄 摘要(原文)

Knowledge distillation (KD) compresses the network capacity by transferring knowledge from a large (teacher) network to a smaller one (student). It has been mainstream that the teacher directly transfers knowledge to the student with its original distribution, which can possibly lead to incorrect predictions. In this article, we propose a logit-based distillation via swapped logit processing, namely Swapped Logit Distillation (SLD). SLD is proposed under two assumptions: (1) the wrong prediction occurs when the prediction label confidence is not the maximum; (2) the "natural" limit of probability remains uncertain as the best value addition to the target cannot be determined. To address these issues, we propose a swapped logit processing scheme. Through this approach, we find that the swap method can be effectively extended to teacher and student outputs, transforming into two teachers. We further introduce loss scheduling to boost the performance of two teachers' alignment. Extensive experiments on image classification tasks demonstrate that SLD consistently performs best among previous state-of-the-art methods.