A Study on Hidden Layer Distillation for Large Language Model Pre-Training

📄 arXiv: 2605.11513v1 📥 PDF

作者: Maxime Guigon, Lucas Dixon, Michaël E. Sander

分类: cs.CL, cs.AI

发布日期: 2026-05-12


💡 一句话要点

研究大型语言模型预训练中的隐层蒸馏方法,探索其性能瓶颈与潜在价值

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大型语言模型 预训练 隐层蒸馏 模型压缩

📋 核心要点

  1. 现有知识蒸馏方法主要依赖输出层信息,忽略了中间层语义信息,限制了学生模型的学习能力。
  2. 该研究探索隐层蒸馏在decoder-only LLM预训练中的应用,旨在利用教师模型中间层的知识。
  3. 实验表明,隐层蒸馏在困惑度指标上优于传统知识蒸馏,但下游任务表现提升不明显,有待进一步研究。

📝 摘要(中文)

知识蒸馏(KD)是训练大型语言模型(LLM)的关键工具,但大多数研究仅依赖于输出logits,忽略了教师模型中间表示中的语义信息。虽然隐层蒸馏(HLD)在编码器架构中显示出潜力,但其在decoder-only预训练中的大规模应用仍未得到充分探索。通过计算控制的实验,我们以Gemma3 3.4B为教师模型,123M和735M为学生模型,在来自C4数据集的最多168B tokens上训练,将HLD与基于logit的KD和自监督基线进行基准测试。实验表明,HLD在下游评估任务中并未始终优于标准KD。然而,我们表明,HLD可以在所有共享超参数配置中产生优于KD的系统性困惑度增益,这表明可以提取潜在信号,但可能需要突破才能使其在LLM预训练中发挥更重要的作用。

🔬 方法详解

问题定义:论文旨在研究隐层蒸馏(HLD)在大规模decoder-only语言模型预训练中的有效性。现有知识蒸馏方法主要关注输出logits,忽略了教师模型中间层的语义信息,可能导致学生模型无法充分学习教师模型的知识。

核心思路:论文的核心思路是利用教师模型中间隐藏层的表示作为知识,指导学生模型的训练。通过最小化教师模型和学生模型在隐藏层表示上的差异,使学生模型能够学习到教师模型更深层次的语义信息。

技术框架:整体框架包括一个预训练好的大型教师模型(Gemma3 3.4B)和较小的学生模型(123M和735M)。学生模型通过最小化损失函数进行训练,损失函数包括传统的语言模型损失以及隐层蒸馏损失。训练数据来自C4数据集,训练规模高达168B tokens。

关键创新:该研究的关键创新在于将隐层蒸馏应用于大规模decoder-only语言模型的预训练。与传统的知识蒸馏方法相比,隐层蒸馏能够利用教师模型中间层的语义信息,为学生模型提供更丰富的学习信号。

关键设计:关键设计包括选择合适的隐藏层进行蒸馏,以及设计合适的损失函数来衡量教师模型和学生模型在隐藏层表示上的差异。论文中使用了均方误差(MSE)作为隐层蒸馏的损失函数。此外,论文还对不同的超参数配置进行了实验,以评估隐层蒸馏的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在相同的超参数配置下,隐层蒸馏在困惑度指标上始终优于传统的基于logits的知识蒸馏方法。虽然在下游任务上的提升并不显著,但困惑度的系统性降低表明隐层蒸馏能够提取到有用的潜在信息,为进一步研究提供了方向。

🎯 应用场景

该研究成果可应用于开发更小、更高效的语言模型,尤其是在资源受限的环境中。通过隐层蒸馏,可以将大型模型的知识迁移到小型模型,从而在保持性能的同时降低计算成本和部署难度。此外,该研究也为未来探索更有效的知识蒸馏方法提供了思路。

📄 摘要(原文)

Knowledge Distillation (KD) is a critical tool for training Large Language Models (LLMs), yet the majority of research focuses on approaches that rely solely on output logits, neglecting semantic information in the teacher's intermediate representations. While Hidden Layer Distillation (HLD) showed potential for encoder architectures, its application to decoder-only pre-training at scale remains largely unexplored. Through compute-controlled experiments, we benchmark HLD against logit-based KD and self-supervised baselines with Gemma3 3.4B as teacher and 123M and 735M students trained on up to 168B tokens from the C4 dataset. Our experiments show that HLD does not consistently outperform standard KD on downstream evaluation tasks. Nevertheless, we show that HLD can yield a systematic perplexity gain over KD across all shared-hyperparameter configurations, suggesting that a latent signal can be extracted, but a breakthrough may be needed for it to play a more significant role in LLM pre-training.