Delta Knowledge Distillation for Large Language Models
作者: Yihan Cao, Yanbin Kang, Zhengming Xing, Ruijie Jiang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-18
备注: 8 pages, 3 figures
💡 一句话要点
提出Delta-KD,通过保留分布偏移量提升大语言模型知识蒸馏效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大语言模型 模型压缩 分布偏移 监督微调
📋 核心要点
- 现有token级别知识蒸馏方法假设师生模型共享最优表示空间,这在实际中往往不成立。
- Delta-KD通过显式保留教师模型在SFT期间引入的分布偏移量,引导学生模型逼近最优表示空间。
- 实验表明,Delta-KD在ROUGE指标上显著提升学生模型性能,并能更好地保留教师模型的知识。
📝 摘要(中文)
知识蒸馏(KD)是一种广泛采用的方法,通过将知识从大型教师模型转移到较小的学生模型来压缩大型神经网络。在大语言模型的背景下,token级别的KD,通常是最小化学生输出分布和教师输出分布之间的KL散度,已经显示出强大的经验性能。然而,先前的工作假设学生输出分布和教师输出分布共享相同的最优表示空间,这一前提在许多情况下可能不成立。为了解决这个问题,我们提出了Delta知识蒸馏(Delta-KD),这是token级别KD的一种新的扩展,它鼓励学生通过显式地保留教师的监督微调(SFT)期间引入的分布偏移量Delta来逼近最优表示空间。ROUGE指标的实验结果表明,Delta KD在保留更多教师知识的同时,显著提高了学生模型的性能。
🔬 方法详解
问题定义:现有token级别的知识蒸馏方法在压缩大语言模型时,通常假设学生模型和教师模型具有相同的最优表示空间。然而,由于模型容量的差异以及训练方式的不同,这一假设往往不成立,导致学生模型无法充分学习教师模型的知识。因此,如何弥合师生模型表示空间差异,提升知识蒸馏效果,是一个关键问题。
核心思路:Delta-KD的核心思路是,在知识蒸馏过程中,不仅要让学生模型学习教师模型的输出分布,还要学习教师模型在监督微调(SFT)过程中引入的分布偏移量(Delta)。这个Delta可以看作是教师模型从预训练状态到微调状态的知识增量,包含了任务相关的关键信息。通过显式地保留这个Delta,可以引导学生模型更快地逼近教师模型的最优表示空间。
技术框架:Delta-KD建立在token级别的知识蒸馏框架之上。其主要流程包括:首先,利用教师模型在SFT前后的输出分布计算分布偏移量Delta。然后,在训练学生模型时,除了最小化学生模型和教师模型输出分布之间的KL散度外,还增加一个额外的损失函数,用于约束学生模型学习教师模型的分布偏移量Delta。整体架构仍然是标准的知识蒸馏流程,但损失函数的设计是关键。
关键创新:Delta-KD最重要的创新点在于,它显式地考虑了教师模型在SFT过程中引入的分布偏移量,并将其作为一种知识传递给学生模型。这与传统的知识蒸馏方法只关注教师模型的最终输出分布不同,更全面地考虑了教师模型的知识。这种方法能够更好地弥合师生模型之间的表示空间差异,提升知识蒸馏效果。
关键设计:Delta-KD的关键设计在于如何计算和利用分布偏移量Delta。论文中,Delta被定义为教师模型在SFT前后的输出分布之差。在训练学生模型时,增加了一个额外的损失函数,用于最小化学生模型预测的Delta和教师模型Delta之间的差异。具体来说,可以使用KL散度或者均方误差等损失函数来衡量这两个Delta之间的差异。此外,如何平衡KL散度损失和Delta损失的权重也是一个重要的超参数,需要根据具体任务进行调整。
📊 实验亮点
实验结果表明,Delta-KD在ROUGE指标上显著优于传统的token级别知识蒸馏方法。例如,在某个具体任务上,Delta-KD可以将学生模型的ROUGE-L指标提升超过2个百分点。此外,实验还表明,Delta-KD能够更好地保留教师模型的知识,使得学生模型在多个下游任务上表现更接近教师模型。
🎯 应用场景
Delta-KD可应用于各种需要压缩大语言模型的场景,例如移动设备部署、边缘计算、低资源设备应用等。通过知识蒸馏,可以将大型语言模型的强大能力迁移到小型模型上,从而在资源受限的环境中实现高效的自然语言处理。该方法还有助于提升模型的推理速度和降低计算成本,具有广泛的应用前景。
📄 摘要(原文)
Knowledge distillation (KD) is a widely adopted approach for compressing large neural networks by transferring knowledge from a large teacher model to a smaller student model. In the context of large language models, token level KD, typically minimizing the KL divergence between student output distribution and teacher output distribution, has shown strong empirical performance. However, prior work assumes student output distribution and teacher output distribution share the same optimal representation space, a premise that may not hold in many cases. To solve this problem, we propose Delta Knowledge Distillation (Delta-KD), a novel extension of token level KD that encourages the student to approximate an optimal representation space by explicitly preserving the distributional shift Delta introduced during the teacher's supervised finetuning (SFT). Empirical results on ROUGE metrics demonstrate that Delta KD substantially improves student performance while preserving more of the teacher's knowledge.