DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
作者: Haiduo Huang, Jiangcheng Song, Yadong Zhang, Pengju Ren
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-05-21
🔗 代码/项目: GITHUB
💡 一句话要点
DeepKD:通过深度解耦和去噪知识蒸馏提升模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 模型压缩 梯度解耦 暗知识 课程学习
📋 核心要点
- 现有知识蒸馏方法在解耦知识成分方面存在不足,尤其忽略了目标类和非目标类知识流的冲突。
- DeepKD通过双层解耦和自适应去噪,独立更新不同梯度成分,并动态过滤低置信度logits,提升知识转移效果。
- 实验表明,DeepKD在CIFAR-100、ImageNet和MS-COCO等数据集上表现出色,验证了其有效性。
📝 摘要(中文)
知识蒸馏的最新进展强调了解耦不同知识组件的重要性。现有方法利用动量机制分离面向任务和蒸馏的梯度,但忽略了目标类和非目标类知识流之间的内在冲突。此外,非目标类中低置信度的暗知识引入了噪声信号,阻碍了有效的知识转移。为了解决这些限制,我们提出了一种新的训练框架DeepKD,它集成了双层解耦和自适应去噪。首先,通过对面向任务和非面向任务知识蒸馏中的梯度信噪比(GSNR)特征进行理论分析,我们为每个组件设计独立的动量更新器,以防止相互干扰。我们观察到,面向任务梯度(TOG)、目标类梯度(TCG)和非目标类梯度(NCG)的最佳动量系数应与其GSNR呈正相关。其次,我们引入了一种动态top-k掩码(DTM)机制,该机制遵循课程学习原则,逐渐增加K,以在训练过程中纳入更多的非目标类。DTM共同过滤来自教师和学生模型的低置信度logits,从而有效地净化了早期训练中的暗知识。在CIFAR-100、ImageNet和MS-COCO上的大量实验证明了DeepKD的有效性。
🔬 方法详解
问题定义:知识蒸馏旨在将大型教师模型的知识迁移到小型学生模型。现有方法尝试解耦不同知识成分,但忽略了目标类和非目标类知识流之间的冲突,并且非目标类中低置信度的暗知识会引入噪声,阻碍知识转移。现有方法通常使用统一的动量更新策略,无法有效区分和处理不同类型的梯度。
核心思路:DeepKD的核心思路是通过双层解耦和自适应去噪来解决上述问题。首先,通过分析梯度信噪比(GSNR),为面向任务梯度、目标类梯度和非目标类梯度设计独立的动量更新器,防止相互干扰。其次,引入动态top-k掩码(DTM)机制,过滤低置信度的logits,净化暗知识。
技术框架:DeepKD的训练框架包含以下几个主要部分:1) 梯度解耦模块:计算面向任务梯度、目标类梯度和非目标类梯度;2) 动量更新模块:使用独立的动量更新器更新不同类型的梯度,动量系数与GSNR相关;3) 动态top-k掩码模块:根据训练进度动态调整k值,过滤低置信度的logits;4) 损失函数模块:结合任务损失和蒸馏损失,优化学生模型。
关键创新:DeepKD的关键创新在于:1) 提出了双层解耦的概念,区分了面向任务和非面向任务的知识蒸馏,并进一步区分了目标类和非目标类的知识流;2) 设计了独立的动量更新器,根据GSNR自适应调整动量系数;3) 引入了动态top-k掩码机制,有效过滤了暗知识,提升了知识转移的效率。
关键设计:DeepKD的关键设计包括:1) GSNR的计算方式,用于确定不同梯度成分的动量系数;2) 动态top-k掩码的k值调整策略,遵循课程学习原则,逐渐增加k值;3) 损失函数的权重设置,平衡任务损失和蒸馏损失。
🖼️ 关键图片
📊 实验亮点
DeepKD在CIFAR-100、ImageNet和MS-COCO等数据集上取得了显著的性能提升。例如,在ImageNet上,DeepKD相对于基线方法,在精度上提升了X%。实验结果表明,DeepKD能够有效地解耦不同知识成分,并抑制暗知识的干扰,从而提升知识蒸馏的效果。代码已开源。
🎯 应用场景
DeepKD可应用于各种需要模型压缩和加速的场景,例如移动设备上的图像识别、自动驾驶中的目标检测、以及资源受限环境下的模型部署。通过知识蒸馏,可以将大型复杂模型的性能迁移到小型高效的模型上,从而在保证性能的同时降低计算成本和存储需求。该方法具有广泛的应用前景,可以促进人工智能技术在各个领域的普及。
📄 摘要(原文)
Recent advances in knowledge distillation have emphasized the importance of decoupling different knowledge components. While existing methods utilize momentum mechanisms to separate task-oriented and distillation gradients, they overlook the inherent conflict between target-class and non-target-class knowledge flows. Furthermore, low-confidence dark knowledge in non-target classes introduces noisy signals that hinder effective knowledge transfer. To address these limitations, we propose DeepKD, a novel training framework that integrates dual-level decoupling with adaptive denoising. First, through theoretical analysis of gradient signal-to-noise ratio (GSNR) characteristics in task-oriented and non-task-oriented knowledge distillation, we design independent momentum updaters for each component to prevent mutual interference. We observe that the optimal momentum coefficients for task-oriented gradient (TOG), target-class gradient (TCG), and non-target-class gradient (NCG) should be positively related to their GSNR. Second, we introduce a dynamic top-k mask (DTM) mechanism that gradually increases K from a small initial value to incorporate more non-target classes as training progresses, following curriculum learning principles. The DTM jointly filters low-confidence logits from both teacher and student models, effectively purifying dark knowledge during early training. Extensive experiments on CIFAR-100, ImageNet, and MS-COCO demonstrate DeepKD's effectiveness. Our code is available at https://github.com/haiduo/DeepKD.