Chain-based Distillation for Effective Initialization of Variable-Sized Small Language Models
作者: Boyu Shi, YiCheng Jiang, Chang Liu, Qiufeng Wang, Xu Yang, Xin Geng
分类: cs.CL
发布日期: 2026-05-08
💡 一句话要点
提出基于链式蒸馏(CBD)的参数初始化范式,实现变尺度小语言模型的高效训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 小语言模型 参数插值 模型压缩 高效训练 模型初始化
📋 核心要点
- 现有知识蒸馏方法在处理不同尺寸目标模型时,需反复调用大型教师模型,计算开销大且扩展性受限。
- 提出链式蒸馏(CBD)范式,通过构建中间锚点序列并利用参数插值,实现变尺度模型的高效初始化。
- 实验证明该方法在无需额外预训练的情况下,显著提升了小模型的训练效率及下游任务的性能表现。
📝 摘要(中文)
大型语言模型(LLM)虽性能卓越,但在资源受限场景下部署成本高昂。从头训练小语言模型(SLM)计算代价巨大,而传统知识蒸馏方法在面对不同目标尺寸时,需反复调用大型教师模型,导致扩展性较差。为解决上述问题,本文提出了链式蒸馏(CBD),这是一种用于高效初始化变尺度语言模型的可扩展范式。通过逐步蒸馏构建稀疏的中间模型序列(锚点),形成知识传递链,从而将知识从源LLM逐步迁移。为支持异构场景,引入了桥接蒸馏技术以实现跨架构和跨词表的迁移。变尺度模型通过相邻锚点间的参数插值进行初始化,消除了对大型教师模型的重复推理需求。实验表明,该方法显著提升了效率与下游性能,一个138M参数的SLM在无需恢复性预训练的情况下,在特定任务的10B token语料上表现优于从头训练模型,且在异构模型初始化中展现了极强的通用性。
🔬 方法详解
问题定义:论文旨在解决资源受限环境下,针对不同尺寸小语言模型(SLM)训练成本高、蒸馏过程对大型教师模型依赖性强且扩展性不足的问题。
核心思路:核心思想是将复杂的蒸馏过程分解为一系列小步长的“链式”迁移。通过构建稀疏的中间模型(锚点),将知识从大型教师模型逐步下传,并利用参数插值技术快速生成任意尺寸的目标模型,从而避免了对教师模型的重复推理。
技术框架:整体流程分为三个阶段:首先,通过逐步蒸馏构建一系列固定尺寸的锚点模型;其次,针对跨架构或跨词表场景,引入“桥接蒸馏”进行适配;最后,利用相邻锚点间的参数插值,直接初始化目标尺寸模型,无需从头训练。
关键创新:最重要的创新在于“链式蒸馏”与“参数插值”的结合。与传统直接蒸馏不同,该方法通过构建知识传递链,实现了模型尺寸的连续化覆盖,极大地降低了对计算资源的依赖。
关键设计:关键技术包括:1. 锚点序列构建策略,确保知识的平滑传递;2. 桥接蒸馏(Bridge Distillation),通过映射矩阵处理异构架构与词表差异;3. 参数插值算法,在保证模型性能的同时实现尺寸的灵活调整。
🖼️ 关键图片
📊 实验亮点
实验结果显示,CBD方法具有显著优势。一个138M参数的SLM在无需恢复性预训练的情况下,在10B token语料的特定任务上,性能超越了从头训练的基线模型。此外,该方法在处理不同架构和词表的异构模型初始化时表现出极强的通用性,证明了其在实际工程场景中的高效性与灵活性。
🎯 应用场景
该技术适用于边缘计算、移动端设备及嵌入式系统等资源受限场景。通过高效初始化变尺度SLM,企业可根据具体硬件约束快速部署高性能模型,显著降低大模型落地过程中的算力成本与时间开销,在端侧智能应用中具有广阔前景。
📄 摘要(原文)
Large language models (LLMs) achieve strong performance but remain costly to deploy in resource-constrained settings. Training small language models (SLMs) from scratch is computationally expensive, while conventional knowledge distillation requires repeated access to large teachers for different target sizes, leading to poor scalability. To solve these problems, we propose \textbf{Chain-based Distillation (CBD)}, a scalable paradigm for efficiently initializing variable-sized language models. A sparse and limited sequence of intermediate models (called anchors) is constructed via stepwise distillation, forming a distillation chain that progressively transfers knowledge from the source LLMs. To support heterogeneous settings, we introduce \emph{bridge distillation} for cross-architecture and cross-vocabulary transfer. Models of variable sizes are initialized via parameter interpolation between adjacent anchors, eliminating repeated large teacher inference. Experiments show that the proposed method substantially improves efficiency and downstream performance. A 138M-parameter SLM without recovery pre-training, outperforms scratch-trained models on a 10B-token corpus on the specific task. CBD also demonstrates versatility in heterogeneous settings for initialize models with different architectures and vocabularies.