Dynamic Temperature Scheduler for Knowledge Distillation

📄 arXiv: 2511.13767v1 📥 PDF

作者: Sibgat Ul Islam, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman

分类: cs.LG, cs.AI

发布日期: 2025-11-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出动态温度调度器DTS,通过教师-学生模型差异自适应调整知识蒸馏温度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 动态温度调度 交叉熵损失 教师-学生模型

📋 核心要点

  1. 传统知识蒸馏方法使用固定温度,忽略了训练过程中学生模型对概率软硬度的不同需求,导致性能瓶颈。
  2. DTS通过监控教师和学生模型交叉熵损失的差距,动态调整蒸馏温度,使学生模型在不同阶段获得最佳的知识迁移。
  3. 实验表明,DTS在多个视觉和NLP任务上,显著优于使用固定温度的知识蒸馏方法,且易于集成到现有框架中。

📝 摘要(中文)

知识蒸馏(KD)使用大型预训练教师模型训练小型学生模型,其中温度是控制输出概率软化的关键超参数。传统方法在整个训练过程中使用固定温度,这并非最优。此外,教师和学生之间的架构差异通常导致logit幅度不匹配。我们证明学生在训练初期受益于较软的概率,但在后期需要更锐利的概率。我们引入动态温度调度器(DTS),它基于教师和学生之间的交叉熵损失差距动态调整温度。据我们所知,这是第一个基于教师和学生分布差异进行自适应调整的温度调度方法。我们的方法与现有的KD框架无缝集成。我们在视觉(CIFAR-100, Tiny-ImageNet)和NLP任务(GLUE, Dolly, SelfIns, UnNI, S-NI)上验证了DTS,始终优于静态温度基线。

🔬 方法详解

问题定义:知识蒸馏旨在将大型教师模型的知识迁移到小型学生模型,提高学生模型的性能。传统方法使用固定的温度系数来控制教师模型输出概率的软化程度。然而,学生模型在训练的不同阶段,对概率的软硬度需求不同。固定温度无法适应这种动态变化,导致知识迁移效率降低,最终影响学生模型的性能。此外,教师和学生模型架构差异会导致logit幅度不匹配,进一步加剧了这一问题。

核心思路:DTS的核心思路是根据教师模型和学生模型之间的学习差异动态调整温度系数。具体来说,通过监测教师模型和学生模型在训练过程中的交叉熵损失差距,来判断学生模型的学习状态。当学生模型学习不足时,采用较高的温度,提供更软的目标概率,帮助学生模型快速学习;当学生模型接近收敛时,降低温度,提供更锐利的目标概率,提高学生模型的精度。

技术框架:DTS可以无缝集成到现有的知识蒸馏框架中。其主要流程如下:首先,使用预训练的教师模型和待训练的学生模型。然后,在训练过程中,计算教师模型和学生模型输出的交叉熵损失。接着,根据交叉熵损失的差距,使用预定义的调度策略动态调整温度系数。最后,使用调整后的温度系数进行知识蒸馏训练,更新学生模型的参数。

关键创新:DTS的关键创新在于提出了一种基于教师-学生模型差异的动态温度调度方法。与传统的固定温度方法相比,DTS能够根据学生模型的学习状态自适应地调整温度系数,从而更有效地进行知识迁移。据作者所知,这是第一个基于教师和学生分布差异进行自适应调整的温度调度方法。

关键设计:DTS的关键设计在于温度调度策略。论文中具体如何根据交叉熵损失差距来调整温度系数的细节未知。但总体思路是,损失差距越大,温度越高;损失差距越小,温度越低。具体的调度函数可以根据实际任务进行调整。此外,DTS可以与不同的知识蒸馏损失函数(如KL散度、交叉熵等)结合使用。

🖼️ 关键图片

fig_0

📊 实验亮点

DTS在多个视觉和NLP任务上取得了显著的性能提升。例如,在CIFAR-100和Tiny-ImageNet数据集上,DTS优于使用固定温度的知识蒸馏方法。在GLUE、Dolly、SelfIns、UnNI和S-NI等NLP任务上,DTS也表现出一致的优越性。这些实验结果表明,DTS是一种有效的知识蒸馏温度调度方法,能够提升学生模型的性能。

🎯 应用场景

DTS可广泛应用于需要模型压缩和加速的场景,例如移动设备上的图像识别、自然语言处理等。通过知识蒸馏,可以将大型复杂模型压缩成小型高效模型,同时保持较高的性能。DTS的动态温度调度策略进一步提升了知识蒸馏的效率和效果,使得小型模型能够更好地学习大型模型的知识,具有重要的实际应用价值。

📄 摘要(原文)

Knowledge Distillation (KD) trains a smaller student model using a large, pre-trained teacher model, with temperature as a key hyperparameter controlling the softness of output probabilities. Traditional methods use a fixed temperature throughout training, which is suboptimal. Moreover, architectural differences between teacher and student often result in mismatched logit magnitudes. We demonstrate that students benefit from softer probabilities early in training but require sharper probabilities in later stages. We introduce Dynamic Temperature Scheduler (DTS), which adjusts temperature dynamically based on the cross-entropy loss gap between teacher and student. To our knowledge, this is the first temperature scheduling method that adapts based on the divergence between teacher and student distributions. Our method integrates seamlessly with existing KD frameworks. We validate DTS across multiple KD strategies on vision (CIFAR-100, Tiny-ImageNet) and NLP tasks (GLUE, Dolly, SelfIns, UnNI, S-NI), consistently outperforming static-temperature baselines. Code is available at https://github.com/Sibgat-Ul/DTS.