On the Generalization vs Fidelity Paradox in Knowledge Distillation

📄 arXiv: 2505.15442v2 📥 PDF

作者: Suhas Kamasetty Ramesh, Ayan Sengupta, Tanmoy Chakraborty

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-08-04)


💡 一句话要点

大规模分析揭示知识蒸馏在小模型上的有效性及泛化-保真度悖论

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 语言模型压缩 模型泛化 推理保真度 零样本学习

📋 核心要点

  1. 知识蒸馏在压缩大型语言模型方面表现出色,但其在小型模型上的有效性和知识转移机制仍需深入研究。
  2. 该研究通过大规模实验分析,揭示了知识蒸馏对不同规模语言模型的影响,并探究了教师模型性能与学生模型结果之间的关系。
  3. 实验结果表明,知识蒸馏能显著提升小型模型的性能,但可能牺牲推理保真度,同时教师模型的任务专业知识至关重要。

📝 摘要(中文)

知识蒸馏(KD)是一种将大型语言模型压缩为小型模型并保持性能的关键技术。尽管KD研究最近备受关注,但其对小型语言模型的有效性以及驱动知识转移的机制仍未得到充分探索。本文对0.5B到7B参数的模型在14个复杂推理任务的零样本设置下进行了首次大规模的KD实证和统计分析。研究结果表明,KD可以将小型模型的平均性能提高高达10%,特定任务的峰值增益为22%,而对大型模型的好处微乎其微(约1.3%)。令人惊讶的是,教师模型的性能对学生模型的结果影响甚微,而教师模型的任务专业知识会影响KD的有效性。相关性研究表明,较小的LM从KD中获益更多,而较大的LM的收益则减少。此外,我们发现学生模型性能的提高与推理保真度之间存在不一致,这表明KD虽然提高了准确性,但并不总是能保持教师模型结构化的决策过程。我们的消融研究进一步强调了教师信号和logits平滑在影响学生模型蒸馏后性能方面的重要性。总的来说,我们的研究对KD进行了全面的实证和统计评估,突出了从大型LM到小型LM进行知识蒸馏时的益处和权衡。

🔬 方法详解

问题定义:现有知识蒸馏研究对小型语言模型的有效性以及知识转移机制的探索不足。大型语言模型压缩到小型模型时,如何在保证性能的同时,维持其推理过程的保真度是一个挑战。此外,教师模型的哪些特性会影响学生模型的学习效果也需要进一步研究。

核心思路:通过大规模的实证和统计分析,研究知识蒸馏在不同规模语言模型上的表现,并分析教师模型的性能、任务专业知识等因素对学生模型的影响。同时,关注学生模型性能提升的同时,其推理过程是否与教师模型保持一致。

技术框架:该研究主要采用实证分析的方法。首先,选择一系列不同规模(0.5B-7B参数)的语言模型作为学生模型,并使用大型语言模型作为教师模型进行知识蒸馏。然后,在14个复杂的推理任务上进行零样本测试,评估学生模型的性能。最后,通过相关性分析和消融实验,分析教师模型的特性(如性能、任务专业知识)以及知识蒸馏的关键技术(如logits平滑)对学生模型的影响。

关键创新:该研究首次对知识蒸馏在不同规模语言模型上的有效性进行了大规模的实证分析,并揭示了知识蒸馏可能导致学生模型推理保真度下降的现象。此外,研究还发现教师模型的任务专业知识比其整体性能更重要。

关键设计:研究中使用了logits平滑技术来调整教师模型的输出,以提高学生模型的学习效果。同时,通过消融实验,分析了教师信号和logits平滑对学生模型性能的影响。实验评估指标包括零样本设置下的准确率,以及用于衡量推理保真度的指标(具体指标未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,知识蒸馏可以将小型模型的平均性能提高高达10%,特定任务的峰值增益为22%。然而,对于大型模型,知识蒸馏的收益仅为约1.3%。研究还发现,教师模型的任务专业知识对学生模型的影响大于其整体性能。同时,实验揭示了知识蒸馏可能导致学生模型推理保真度下降的现象。

🎯 应用场景

该研究成果可应用于各种需要压缩大型语言模型的场景,例如移动设备、边缘计算等资源受限的环境。通过知识蒸馏,可以在保证模型性能的前提下,降低模型的计算复杂度和存储空间,从而实现更高效的部署和应用。此外,该研究对知识蒸馏的理解和应用具有指导意义,有助于开发更有效的知识蒸馏算法。

📄 摘要(原文)

Knowledge distillation (KD) is a key technique for compressing large language models into smaller ones while preserving performance. Despite the recent traction of KD research, its effectiveness for smaller language models (LMs) and the mechanisms driving knowledge transfer remain underexplored. In this work, we present the first large-scale empirical and statistical analysis of KD across models ranging from 0.5B to 7B parameters on 14 complex reasoning tasks in a zero-shot setting. Our findings reveal that KD can improve the average performance of smaller models by up to $10\%$, with a peak task specific gain of $22\%$, while providing only marginal benefits ($\sim 1.3\%$) for larger models. Surprisingly, teacher performance has a minimal impact on student outcomes, while teacher task expertise impacts KD effectiveness. A correlation study indicates that smaller LMs benefit more from KD, whereas larger LMs show diminished gains. Additionally, we uncover a misalignment between improvements in student performance and reasoning fidelity, suggesting that while KD enhances accuracy, it does not always maintain the structured decision-making processes of the teacher. Our ablation study further highlights the importance of teacher signals and logit smoothing in influencing students' performance after distillation. Overall, our study offers a comprehensive empirical and statistical assessment of KD, highlighting both its benefits and trade-offs when distilling knowledge from larger to smaller LMs.