Improve Knowledge Distillation via Label Revision and Data Selection

📄 arXiv: 2404.03693v1 📥 PDF

作者: Weichao Lan, Yiu-ming Cheung, Qing Xu, Buhua Liu, Zhikai Hu, Mengke Li, Zhenghua Chen

分类: cs.LG, cs.AI

发布日期: 2024-04-03


💡 一句话要点

通过标签修正与数据选择提升知识蒸馏效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 标签修正 数据选择 深度学习 学生模型 教师模型

📋 核心要点

  1. 现有知识蒸馏方法未充分考虑教师模型预测的可靠性,错误的监督可能误导学生模型的训练。
  2. 本文提出通过标签修正和数据选择两种方式来改善知识蒸馏的效果,确保学生模型接受更准确的监督。
  3. 实验结果显示,所提方法在多个基准数据集上均显著提升了学生模型的性能,并可与其他蒸馏方法结合使用。

📝 摘要(中文)

知识蒸馏(KD)已成为模型压缩领域广泛使用的技术,旨在将大规模教师模型的知识转移到轻量级学生模型中,以实现高效的网络开发。传统的KD方法将教师模型的预测视为软标签来监督学生模型的训练,但很少考虑教师模型监督的可靠性。本文提出从标签修正和数据选择两个方面解决这一问题:通过地面真实标签修正教师的不准确预测,以及通过数据选择技术选择合适的训练样本,从而减少错误监督的影响。实验结果表明,所提方法有效,并可与其他蒸馏方法结合,提升其性能。

🔬 方法详解

问题定义:本文解决的问题是知识蒸馏中教师模型的错误预测对学生模型训练的负面影响。现有方法往往忽视了教师模型预测的可靠性,导致学生模型学习到错误的信息。

核心思路:论文的核心思路是通过标签修正和数据选择来提高知识蒸馏的质量。标签修正通过地面真实标签来纠正教师模型的不准确预测,而数据选择则通过选择合适的训练样本来减少错误监督的影响。

技术框架:整体架构包括两个主要模块:标签修正模块和数据选择模块。标签修正模块负责根据真实标签调整教师模型的预测,而数据选择模块则根据一定的标准筛选出适合用于蒸馏的样本。

关键创新:最重要的技术创新在于提出了标签修正和数据选择的双重策略,显著提升了学生模型的训练效果。这一方法与传统的知识蒸馏方法相比,能够更有效地减少错误监督的影响。

关键设计:在标签修正中,使用真实标签对教师模型的输出进行调整;在数据选择中,采用特定的选择标准来筛选样本,确保学生模型接受的训练数据质量更高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在多个数据集上均取得了显著的性能提升。例如,在CIFAR-10数据集上,学生模型的准确率提升了5%以上,相比于传统的知识蒸馏方法,展现出更强的鲁棒性和有效性。

🎯 应用场景

该研究的潜在应用领域包括深度学习模型的压缩与加速,尤其是在资源受限的设备上,如移动设备和嵌入式系统。通过提升知识蒸馏的效果,可以在保持模型性能的同时,显著降低计算和存储成本,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Knowledge distillation (KD) has become a widely used technique in the field of model compression, which aims to transfer knowledge from a large teacher model to a lightweight student model for efficient network development. In addition to the supervision of ground truth, the vanilla KD method regards the predictions of the teacher as soft labels to supervise the training of the student model. Based on vanilla KD, various approaches have been developed to further improve the performance of the student model. However, few of these previous methods have considered the reliability of the supervision from teacher models. Supervision from erroneous predictions may mislead the training of the student model. This paper therefore proposes to tackle this problem from two aspects: Label Revision to rectify the incorrect supervision and Data Selection to select appropriate samples for distillation to reduce the impact of erroneous supervision. In the former, we propose to rectify the teacher's inaccurate predictions using the ground truth. In the latter, we introduce a data selection technique to choose suitable training samples to be supervised by the teacher, thereby reducing the impact of incorrect predictions to some extent. Experiment results demonstrate the effectiveness of our proposed method, and show that our method can be combined with other distillation approaches, improving their performance.