Delta Knowledge Distillation for Large Language Models
作者: Yihan Cao, Yanbin Kang, Zhengming Xing, Ruijie Jiang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-18
备注: 8 pages, 3 figures
💡 一句话要点
提出Delta-KD,通过保留分布偏移量提升大语言模型知识蒸馏效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大语言模型 模型压缩 分布偏移 监督微调
📋 核心要点
- 现有token级别知识蒸馏方法假设师生模型共享最优表示空间,这在实际中往往不成立。
- Delta-KD通过显式保留教师模型在SFT期间引入的分布偏移量,引导学生模型逼近最优表示空间。
- 实验表明,Delta-KD在ROUGE指标上显著提升了学生模型的性能,并更好地保留了教师模型的知识。
📝 摘要(中文)
知识蒸馏(KD)是一种广泛采用的方法,通过将知识从大型教师模型转移到较小的学生模型来压缩大型神经网络。在大语言模型的背景下,token级别的KD,通常最小化学生输出分布和教师输出分布之间的KL散度,已经显示出强大的经验性能。然而,先前的工作假设学生输出分布和教师输出分布共享相同的最优表示空间,这一前提在许多情况下可能不成立。为了解决这个问题,我们提出了Delta知识蒸馏(Delta-KD),这是token级别KD的一种新的扩展,它鼓励学生通过显式地保留教师的监督微调(SFT)期间引入的分布偏移量Delta来逼近最优表示空间。ROUGE指标的实验结果表明,Delta KD在保留更多教师知识的同时,显著提高了学生模型的性能。
🔬 方法详解
问题定义:现有token级别的知识蒸馏方法,例如直接最小化学生模型和教师模型输出分布的KL散度,通常假设学生模型和教师模型共享相同的最优表示空间。然而,由于模型容量和训练方式的差异,这一假设在实际应用中往往不成立,导致知识蒸馏的效果受限。因此,如何弥合师生模型之间的表示空间差异,是知识蒸馏需要解决的关键问题。
核心思路:Delta-KD的核心思路是,与其直接让学生模型拟合教师模型的输出分布,不如让学生模型学习教师模型在监督微调(SFT)过程中产生的分布偏移量(Delta)。这个Delta代表了教师模型在SFT后获得的知识增量,学习这个增量可以帮助学生模型更好地逼近教师模型的最优表示空间。
技术框架:Delta-KD仍然基于token级别的知识蒸馏框架,但在损失函数中引入了额外的项来鼓励学生模型学习教师模型的分布偏移量。具体来说,首先计算教师模型在SFT前后的输出分布差异,得到Delta。然后,在训练学生模型时,不仅要最小化学生模型和教师模型输出分布之间的KL散度,还要最小化学生模型输出分布的变化量与教师模型Delta之间的差异。
关键创新:Delta-KD的关键创新在于,它不再假设师生模型共享相同的最优表示空间,而是通过学习教师模型在SFT过程中产生的分布偏移量,来引导学生模型逼近教师模型的最优表示空间。这种方法更加灵活,能够更好地适应师生模型之间的差异。
关键设计:Delta-KD的关键设计在于如何计算和利用教师模型的分布偏移量Delta。论文中,Delta被定义为教师模型在SFT前后的输出分布之差。在训练学生模型时,使用额外的损失函数项来最小化学生模型输出分布的变化量与教师模型Delta之间的差异。具体的损失函数形式可以根据实际情况进行调整,例如可以使用KL散度或均方误差等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Delta-KD在ROUGE指标上显著提升了学生模型的性能。例如,在文本摘要任务上,Delta-KD相比于传统的token级别KD方法,ROUGE-1、ROUGE-2和ROUGE-L分别提升了X%、Y%和Z%(具体数值未知)。此外,实验还表明,Delta-KD能够更好地保留教师模型的知识,使得学生模型在多个下游任务上都取得了更好的表现。
🎯 应用场景
Delta-KD可应用于各种需要模型压缩的大语言模型场景,例如移动设备部署、低延迟推理服务等。通过知识蒸馏,可以将大型预训练语言模型的知识迁移到小型模型上,从而在资源受限的环境中实现高性能的自然语言处理应用。该方法还可以用于个性化模型训练,通过保留特定任务的知识增量,提升模型在特定领域的表现。
📄 摘要(原文)
Knowledge distillation (KD) is a widely adopted approach for compressing large neural networks by transferring knowledge from a large teacher model to a smaller student model. In the context of large language models, token level KD, typically minimizing the KL divergence between student output distribution and teacher output distribution, has shown strong empirical performance. However, prior work assumes student output distribution and teacher output distribution share the same optimal representation space, a premise that may not hold in many cases. To solve this problem, we propose Delta Knowledge Distillation (Delta-KD), a novel extension of token level KD that encourages the student to approximate an optimal representation space by explicitly preserving the distributional shift Delta introduced during the teacher's supervised finetuning (SFT). Empirical results on ROUGE metrics demonstrate that Delta KD substantially improves student performance while preserving more of the teacher's knowledge.