Student Capacity Moderates Knowledge Distillation Effectiveness: A Systematic Study Across ResNet Teacher-Student Pairs on CIFAR-10

📄 arXiv: 2605.31191v1 📥 PDF

作者: Umut Onur Yasar

分类: cs.LG, cs.CV

发布日期: 2026-05-29

备注: 9 pages, 2 figures, 5 tables. Code available at https://github.com/umutonuryasar/kd-capacity-gap


💡 一句话要点

研究学生网络容量对ResNet图像分类知识蒸馏效果的影响,揭示容量匹配的重要性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 模型压缩 学生网络容量 ResNet 图像分类

📋 核心要点

  1. 现有知识蒸馏研究较少关注学生网络容量对蒸馏效果的影响,缺乏系统性的容量关系分析。
  2. 通过控制变量,对比不同ResNet教师-学生对的Logit-KD和Feature-KD,分析学生网络容量在知识蒸馏中的作用。
  3. 实验表明,学生网络容量是蒸馏增益的关键因素,且Feature-KD的正确实现和输入分辨率感知架构至关重要。

📝 摘要(中文)

本文研究了在CIFAR-10上,基于ResNet的图像分类中,教师-学生网络容量关系如何调节知识蒸馏(KD)的有效性。针对三个教师-学生对--R50->R18、R34->R18和R50->R34--我们在受控、可重复的条件下(3个种子,报告均值+/-标准差)比较了Logit-KD和Feature-KD。我们报告了三个主要发现。首先,学生网络容量是蒸馏增益的关键调节因素:即使教师-学生准确率差距相当,R34学生网络从KD中获益远大于R18学生网络,R50->R34 Feature-KD观察到最强的增益+0.30pp,而R34->R18 Feature-KD为+0.18pp,R34->R18 Logit-KD为+0.00pp。其次,实现正确性对Feature-KD至关重要:排除投影层的梯度裁剪错误抑制了Feature-KD的性能,并产生了与Logit-KD的误导性比较。纠正后,Feature-KD在三个网络对中的两个中匹配或优于Logit-KD,在R50->R34上达到95.55%,而基线为95.25%。第三,输入分辨率感知的架构是有效蒸馏的先决条件:针对32x32输入的ResNet stem的校正将教师准确率提高了5pp以上——比任何KD增益大一个数量级。所有代码和结果可在github.com/umutonuryasar/kd-capacity-gap上找到。

🔬 方法详解

问题定义:知识蒸馏旨在将大型教师网络的知识迁移到小型学生网络,提升学生网络的性能。现有方法通常忽略学生网络容量对蒸馏效果的影响,缺乏对不同容量教师-学生网络对的系统性研究。此外,Feature-KD的实现细节(如梯度裁剪)可能影响其性能,导致与Logit-KD的比较出现偏差。

核心思路:本文的核心思路是系统性地研究学生网络容量如何调节知识蒸馏的有效性。通过对比不同容量的ResNet教师-学生网络对(R50->R18, R34->R18, R50->R34),分析Logit-KD和Feature-KD在不同容量差距下的表现。同时,关注Feature-KD的实现细节,纠正潜在的错误,以获得更准确的性能评估。

技术框架:本文采用ResNet作为基础网络,在CIFAR-10数据集上进行图像分类实验。主要流程包括:1) 训练不同容量的教师网络(ResNet50, ResNet34);2) 使用Logit-KD和Feature-KD将知识从教师网络迁移到不同容量的学生网络(ResNet18, ResNet34);3) 评估学生网络的性能,并分析学生网络容量、蒸馏方法和实现细节对蒸馏效果的影响。

关键创新:本文最重要的技术创新点在于系统性地研究了学生网络容量对知识蒸馏效果的影响,揭示了学生网络容量是蒸馏增益的关键调节因素。此外,本文还指出了Feature-KD实现细节的重要性,并纠正了梯度裁剪错误,从而获得了更准确的性能评估。

关键设计:本文的关键设计包括:1) 选择ResNet作为基础网络,方便控制网络容量;2) 使用CIFAR-10数据集,降低实验复杂度;3) 对比Logit-KD和Feature-KD两种常用的蒸馏方法;4) 关注Feature-KD的实现细节,如梯度裁剪和投影层的使用;5) 针对32x32输入的ResNet stem进行校正,提高教师网络的准确率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,学生网络容量是蒸馏增益的关键调节因素。R34学生网络从KD中获益远大于R18学生网络,R50->R34 Feature-KD观察到最强的增益+0.30pp,达到95.55%的准确率,而基线为95.25%。此外,纠正Feature-KD的梯度裁剪错误后,其性能匹配或优于Logit-KD。

🎯 应用场景

该研究成果可应用于模型压缩和加速领域,通过选择合适的教师-学生网络容量比例,可以更有效地进行知识蒸馏,从而在资源受限的设备上部署高性能的图像分类模型。此外,该研究也为知识蒸馏算法的设计和优化提供了指导。

📄 摘要(原文)

We investigate how teacher-student capacity relationships modulate knowledge distillation (KD) effectiveness in ResNet-based image classification on CIFAR-10. Across three teacher-student pairs -- R50->R18, R34->R18, and R50->R34 -- we compare Logit-KD and Feature-KD under controlled, reproducible conditions (3 seeds, mean+/-std reported throughout). We report three main findings. First, student capacity is a key moderating factor in distillation gain: R34 students benefit substantially more from KD than R18 students even when teacher-student accuracy gaps are comparable, with the strongest gain of +0.30pp observed for R50->R34 Feature-KD versus +0.18pp for R34->R18 Feature-KD and +0.00pp for R34->R18 Logit-KD. Second, implementation correctness critically affects Feature-KD: a gradient clipping bug that excluded projection layers suppressed Feature-KD performance and produced misleading comparisons with Logit-KD. After correction, Feature-KD matches or outperforms Logit-KD in two of three pairs, reaching 95.55% on R50->R34 against a baseline of 95.25%. Third, input-resolution-aware architecture is a prerequisite for effective distillation: correcting the ResNet stem for 32x32 inputs raises teacher accuracy by over 5pp -- an order of magnitude larger than any KD gain. All code and results are available at github.com/umutonuryasar/kd-capacity-gap.