DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer

作者: Haiduo Huang, Jiangcheng Song, Yadong Zhang, Pengju Ren

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-05-21

🔗 代码/项目: GITHUB

💡 一句话要点

DeepKD：通过深度解耦和去噪知识蒸馏提升模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 梯度解耦 暗知识 课程学习

📋 核心要点

现有知识蒸馏方法在解耦知识成分方面存在不足，尤其忽略了目标类和非目标类知识流的冲突。
DeepKD通过双层解耦和自适应去噪，独立更新不同梯度成分，并动态过滤低置信度logits，提升知识转移效果。
实验表明，DeepKD在CIFAR-100、ImageNet和MS-COCO等数据集上表现出色，验证了其有效性。

📝 摘要（中文）

知识蒸馏的最新进展强调了解耦不同知识组件的重要性。现有方法利用动量机制分离面向任务和蒸馏的梯度，但忽略了目标类和非目标类知识流之间的内在冲突。此外，非目标类中低置信度的暗知识引入了噪声信号，阻碍了有效的知识转移。为了解决这些限制，我们提出了一种新的训练框架DeepKD，它集成了双层解耦和自适应去噪。首先，通过对面向任务和非面向任务知识蒸馏中的梯度信噪比（GSNR）特征进行理论分析，我们为每个组件设计独立的动量更新器，以防止相互干扰。我们观察到，面向任务梯度（TOG）、目标类梯度（TCG）和非目标类梯度（NCG）的最佳动量系数应与其GSNR呈正相关。其次，我们引入了一种动态top-k掩码（DTM）机制，该机制遵循课程学习原则，逐渐增加K，以在训练过程中纳入更多的非目标类。DTM共同过滤来自教师和学生模型的低置信度logits，从而有效地净化了早期训练中的暗知识。在CIFAR-100、ImageNet和MS-COCO上的大量实验证明了DeepKD的有效性。

🔬 方法详解

问题定义：知识蒸馏旨在将大型教师模型的知识迁移到小型学生模型。现有方法尝试解耦不同知识成分，但忽略了目标类和非目标类知识流之间的冲突，并且非目标类中低置信度的暗知识会引入噪声，阻碍知识转移。现有方法通常使用统一的动量更新策略，无法有效区分和处理不同类型的梯度。

核心思路：DeepKD的核心思路是通过双层解耦和自适应去噪来解决上述问题。首先，通过分析梯度信噪比（GSNR），为面向任务梯度、目标类梯度和非目标类梯度设计独立的动量更新器，防止相互干扰。其次，引入动态top-k掩码（DTM）机制，过滤低置信度的logits，净化暗知识。

技术框架：DeepKD的训练框架包含以下几个主要部分：1) 梯度解耦模块：计算面向任务梯度、目标类梯度和非目标类梯度；2) 动量更新模块：使用独立的动量更新器更新不同类型的梯度，动量系数与GSNR相关；3) 动态top-k掩码模块：根据训练进度动态调整k值，过滤低置信度的logits；4) 损失函数模块：结合任务损失和蒸馏损失，优化学生模型。

关键创新：DeepKD的关键创新在于：1) 提出了双层解耦的概念，区分了面向任务和非面向任务的知识蒸馏，并进一步区分了目标类和非目标类的知识流；2) 设计了独立的动量更新器，根据GSNR自适应调整动量系数；3) 引入了动态top-k掩码机制，有效过滤了暗知识，提升了知识转移的效率。

关键设计：DeepKD的关键设计包括：1) GSNR的计算方式，用于确定不同梯度成分的动量系数；2) 动态top-k掩码的k值调整策略，遵循课程学习原则，逐渐增加k值；3) 损失函数的权重设置，平衡任务损失和蒸馏损失。

🖼️ 关键图片

📊 实验亮点

DeepKD在CIFAR-100、ImageNet和MS-COCO等数据集上取得了显著的性能提升。例如，在ImageNet上，DeepKD相对于基线方法，在精度上提升了X%。实验结果表明，DeepKD能够有效地解耦不同知识成分，并抑制暗知识的干扰，从而提升知识蒸馏的效果。代码已开源。

🎯 应用场景

DeepKD可应用于各种需要模型压缩和加速的场景，例如移动设备上的图像识别、自动驾驶中的目标检测、以及资源受限环境下的模型部署。通过知识蒸馏，可以将大型复杂模型的性能迁移到小型高效的模型上，从而在保证性能的同时降低计算成本和存储需求。该方法具有广泛的应用前景，可以促进人工智能技术在各个领域的普及。

📄 摘要（原文）

Recent advances in knowledge distillation have emphasized the importance of decoupling different knowledge components. While existing methods utilize momentum mechanisms to separate task-oriented and distillation gradients, they overlook the inherent conflict between target-class and non-target-class knowledge flows. Furthermore, low-confidence dark knowledge in non-target classes introduces noisy signals that hinder effective knowledge transfer. To address these limitations, we propose DeepKD, a novel training framework that integrates dual-level decoupling with adaptive denoising. First, through theoretical analysis of gradient signal-to-noise ratio (GSNR) characteristics in task-oriented and non-task-oriented knowledge distillation, we design independent momentum updaters for each component to prevent mutual interference. We observe that the optimal momentum coefficients for task-oriented gradient (TOG), target-class gradient (TCG), and non-target-class gradient (NCG) should be positively related to their GSNR. Second, we introduce a dynamic top-k mask (DTM) mechanism that gradually increases K from a small initial value to incorporate more non-target classes as training progresses, following curriculum learning principles. The DTM jointly filters low-confidence logits from both teacher and student models, effectively purifying dark knowledge during early training. Extensive experiments on CIFAR-100, ImageNet, and MS-COCO demonstrate DeepKD's effectiveness. Our code is available at https://github.com/haiduo/DeepKD.

DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理