Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models
作者: Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-29
备注: 15 pages, 3 figures. Code: https://github.com/PKU-YuanGroup/TIDE
💡 一句话要点
TIDE:面向扩散大语言模型的跨架构蒸馏框架,提升小模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 知识蒸馏 跨架构学习 大语言模型 模型压缩
📋 核心要点
- 现有扩散大语言模型参数量巨大,推理成本高昂,而现有蒸馏方法难以在架构差异大的模型间迁移知识。
- TIDE框架通过联合调制蒸馏强度、互补掩码分割和跨分词器目标,实现了跨架构的知识有效迁移。
- 实验表明,TIDE框架能将大模型知识有效迁移到小模型,并在代码生成等任务上取得显著性能提升。
📝 摘要(中文)
扩散大语言模型(dLLMs)提供并行解码和双向上下文,但目前最先进的dLLMs需要数十亿参数才能达到有竞争力的性能。现有的dLLM蒸馏方法虽然减少了单个架构内的推理步骤,但没有解决跨架构知识迁移的问题,即教师和学生在架构、注意力机制和分词器上存在差异。我们提出了TIDE,这是第一个用于跨架构dLLM蒸馏的框架,包含三个模块化组件:(1) TIDAL,它联合调制训练过程和扩散时间步上的蒸馏强度,以考虑教师的噪声依赖可靠性;(2) CompDemo,通过互补掩码分割丰富教师的上下文,以改善重度掩码下的预测;(3) Reverse CALM,一种跨分词器目标,它反转块级似然匹配,产生有界梯度和双端噪声过滤。通过两个异构管道将8B稠密和16B MoE教师模型蒸馏成0.6B学生模型,在八个基准测试中平均超过基线1.53个点,并在代码生成方面取得了显著的提升,HumanEval得分达到48.78,而AR基线为32.3。
🔬 方法详解
问题定义:论文旨在解决扩散大语言模型(dLLMs)的知识蒸馏问题,尤其是在教师模型和学生模型架构差异很大的情况下。现有蒸馏方法主要针对相同架构的模型,无法有效利用异构模型的知识,导致学生模型性能受限。此外,教师模型在不同噪声水平下的可靠性不同,以及教师和学生模型使用不同分词器的问题,都给跨架构蒸馏带来了挑战。
核心思路:论文的核心思路是设计一个能够适应不同架构、注意力机制和分词器的蒸馏框架。该框架通过三个关键模块来解决跨架构蒸馏中的挑战:TIDAL动态调整蒸馏强度,CompDemo增强教师模型的上下文信息,Reverse CALM解决跨分词器的问题。通过这些模块的协同作用,实现知识从大模型到小模型的有效迁移。
技术框架:TIDE框架包含三个主要模块:TIDAL (Time-dependent and Iteration-Adaptive Learning),CompDemo (Complementary Mask Demonstration),和Reverse CALM (Reverse Chunk-level Alignment with Likelihood Matching)。TIDAL模块根据训练进度和扩散时间步动态调整蒸馏强度,CompDemo模块通过互补掩码分割来丰富教师模型的上下文信息,Reverse CALM模块则通过反转块级似然匹配来解决跨分词器的问题。整个框架通过最小化学生模型的预测与教师模型预测之间的差异来进行训练。
关键创新:TIDE框架的关键创新在于其能够有效解决跨架构dLLM蒸馏中的三个核心问题:噪声依赖可靠性、上下文信息不足以及分词器差异。TIDAL模块通过动态调整蒸馏强度,解决了教师模型在不同噪声水平下的可靠性问题。CompDemo模块通过互补掩码分割,增强了教师模型的上下文信息,从而提高了学生模型的预测准确性。Reverse CALM模块通过反转块级似然匹配,解决了跨分词器的问题,使得学生模型能够更好地学习教师模型的知识。
关键设计:TIDAL模块使用一个可学习的函数来根据训练进度和扩散时间步动态调整蒸馏强度。CompDemo模块通过随机掩码和互补掩码分割来生成教师模型的上下文信息。Reverse CALM模块使用块级似然匹配损失函数,并反转了匹配方向,从而实现了有界梯度和双端噪声过滤。损失函数的设计是关键,它需要平衡学生模型的预测准确性和与教师模型的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TIDE框架在多个基准测试中显著优于基线方法,平均提升1.53个点。在代码生成任务中,HumanEval得分达到48.78,相比AR基线32.3有显著提升。通过将8B稠密和16B MoE教师模型蒸馏成0.6B学生模型,实现了性能和效率的平衡。
🎯 应用场景
该研究成果可应用于各种需要小型化、低延迟的自然语言处理场景,例如移动设备上的智能助手、边缘计算设备上的实时翻译等。通过将大型dLLM的知识迁移到小型模型,可以在资源受限的环境中部署高性能的语言模型,从而推动人工智能技术的普及和应用。
📄 摘要(原文)
Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance. While existing distillation methods for dLLMs reduce inference steps within a single architecture, none address cross-architecture knowledge transfer, in which the teacher and student differ in architecture, attention mechanism, and tokenizer. We present TIDE, the first framework for cross-architecture dLLM distillation, comprising three modular components: (1) TIDAL, which jointly modulates distillation strength across training progress and diffusion timestep to account for the teacher's noise-dependent reliability; (2) CompDemo, which enriches the teacher's context via complementary mask splitting to improve predictions under heavy masking; and (3) Reverse CALM, a cross-tokenizer objective that inverts chunk-level likelihood matching, yielding bounded gradients and dual-end noise filtering. Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.