A Teacher Is Worth A Million Instructions

📄 arXiv: 2406.19112v1 📥 PDF

作者: Nikhil Kothari, Ravindra Nayak, Shreyas Shetty, Amey Patil, Nikesh Garera

分类: cs.LG

发布日期: 2024-06-27

备注: 7 pages, 4 figures


💡 一句话要点

利用大模型知识蒸馏与领域对齐,提升小模型指令调优性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 领域对齐 大型语言模型 指令调优 小模型训练

📋 核心要点

  1. 现有小模型训练依赖高质量数据和指令调优集,且训练方法存在局限性,难以充分利用小模型潜力。
  2. 利用大模型作为教师,通过知识蒸馏将大模型捕获的丰富数据变化传递给小模型,提升小模型性能。
  3. 引入领域对齐阶段,使用领域专家模型增强特定领域知识,同时保持模型的泛化能力,实验结果显著。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但训练这些模型极具挑战性。这很大程度上取决于数据的质量和找到最佳的指令调优集。此外,训练方法本身的局限性给训练参数量较小的模型(如7B和13B)带来了实质性的困难。本文提出了一种改进的训练方法,通过利用更大模型的知识(例如混合专家(8x7B)架构)来训练这些较小的模型。这些更大模型的规模使它们能够仅从数据中捕获各种变化,从而成为较小模型的有效教师。此外,我们实现了一种新颖的后训练领域对齐阶段,该阶段采用特定领域的专家模型来增强训练期间的领域特定知识,同时保持模型的泛化能力。使用我们的方法对Mistral 7B和2x7B进行微调,超越了具有超过7B和13B参数的最新语言模型的性能:在MT-Bench上达到7.9,在AlpacaEval上达到93.04%。

🔬 方法详解

问题定义:论文旨在解决参数量较小的语言模型(如7B和13B)在训练过程中面临的挑战。现有方法依赖于高质量的数据和指令调优集,并且训练方法本身的局限性使得小模型难以充分学习和利用数据中的信息,导致性能受限。现有方法的痛点在于无法有效利用大规模数据中的知识,并且难以在特定领域获得足够的专业知识。

核心思路:论文的核心思路是利用更大规模的语言模型(如混合专家模型)作为“教师”,通过知识蒸馏的方式将大模型的知识迁移到小模型中。此外,论文还引入了领域对齐阶段,利用领域专家模型来增强小模型在特定领域的知识,从而提升其在特定任务上的性能。这样设计的目的是让小模型能够从大模型中学习到更广泛的知识,并在特定领域获得更专业的技能。

技术框架:整体框架包含两个主要阶段:首先是知识蒸馏阶段,使用大模型(教师模型)生成的数据来训练小模型(学生模型)。然后是领域对齐阶段,使用领域专家模型来微调小模型,使其更好地适应特定领域的任务。具体流程如下:1. 使用大模型生成指令数据;2. 使用生成的数据微调小模型;3. 使用领域专家模型对微调后的小模型进行领域对齐。

关键创新:论文的关键创新在于结合了知识蒸馏和领域对齐两种技术,从而能够更有效地训练小模型。与现有方法相比,该方法不仅能够利用大模型的知识,还能够增强小模型在特定领域的专业知识。此外,论文提出的领域对齐方法是一种新颖的后训练技术,可以在不影响模型泛化能力的前提下,提升其在特定领域的性能。

关键设计:在知识蒸馏阶段,论文可能采用了某种损失函数来衡量学生模型和大模型输出之间的差异,例如KL散度。在领域对齐阶段,论文可能使用了领域专家模型生成的数据来微调小模型,并可能采用了某种正则化技术来防止过拟合。具体的参数设置和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该方法微调后的Mistral 7B和2x7B模型在多个基准测试中超越了参数量更大的模型。具体来说,在MT-Bench上达到了7.9分,在AlpacaEval上达到了93.04%。这些结果表明,该方法能够有效地提升小模型的性能,使其在各种任务中都具有竞争力。

🎯 应用场景

该研究成果可广泛应用于各种需要小型化、高性能语言模型的场景,例如移动设备、边缘计算设备和资源受限的环境。通过知识蒸馏和领域对齐,可以训练出在特定领域表现优异的小型语言模型,从而为智能助手、机器翻译、文本摘要等应用提供更高效、更精准的服务。未来,该方法有望推动小型语言模型在各行各业的普及应用。

📄 摘要(原文)

Large Language Models(LLMs) have shown exceptional abilities, yet training these models can be quite challenging. There is a strong dependence on the quality of data and finding the best instruction tuning set. Further, the inherent limitations in training methods create substantial difficulties to train relatively smaller models with 7B and 13B parameters. In our research, we suggest an improved training method for these models by utilising knowledge from larger models, such as a mixture of experts (8x7B) architectures. The scale of these larger models allows them to capture a wide range of variations from data alone, making them effective teachers for smaller models. Moreover, we implement a novel post-training domain alignment phase that employs domain-specific expert models to boost domain-specific knowledge during training while preserving the model's ability to generalise. Fine-tuning Mistral 7B and 2x7B with our method surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to $7.9$ in MT-Bench and $93.04\%$ on AlpacaEval.