DWA-KD: Dual-Space Weighting and Time-Warped Alignment for Cross-Tokenizer Knowledge Distillation
作者: Duc Trung Vu, Pham Khanh Chi, Dat Phi Van, Linh Ngo Van, Sang Dinh, Trung Le
分类: cs.CL
发布日期: 2026-02-25
备注: EACL Findings
💡 一句话要点
DWA-KD:双空间权重与时间扭曲对齐的跨分词器知识蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 跨分词器 大型语言模型 序列对齐 Soft-DTW 双空间权重 自然语言处理
📋 核心要点
- 现有跨分词器知识蒸馏方法在序列和词汇层面的对齐效果不佳,限制了蒸馏性能。
- DWA-KD通过双空间熵权重关注信息量大的token,并利用Soft-DTW实现词汇和语义的序列对齐。
- 实验表明,DWA-KD在多个NLP基准测试中优于现有知识蒸馏方法,消融实验验证了各模块的有效性。
📝 摘要(中文)
知识蒸馏(KD)已成为压缩大型语言模型(LLM)的关键技术。虽然现有的跨分词器KD方法取得了显著进展,但其有效性仍然受到序列和词汇级别次优对齐的限制。为了解决这些限制,我们提出了一种新颖的跨分词器蒸馏框架——双空间权重与时间扭曲对齐(DWA-KD),该框架通过双空间基于熵的权重来增强token级别的蒸馏,并通过利用词汇和语义信息来实现精确的序列级别对齐。在token级别,DWA-KD将教师表示映射到学生空间,反之亦然,通过Kullback-Leibler散度(KL)执行双空间KD。该过程由双空间权重调节,该权重提高了学生不确定而教师确定的token的权重,从而将学习集中在信息丰富的token上,而不是平等地对待所有位置。在序列级别,DWA-KD将Soft Dynamic Time Warping (Soft-DTW)应用于嵌入和最终隐藏状态层,从而实现教师和学生序列之间词汇和上下文语义的鲁棒对齐。在各种NLP基准上的大量实验表明,DWA-KD优于最先进的KD基线,而消融研究证实了基于熵的token权重和嵌入以及最终隐藏状态层Soft-DTW对齐的互补贡献。
🔬 方法详解
问题定义:现有的跨分词器知识蒸馏方法在对齐教师模型和学生模型时存在困难,尤其是在token级别和序列级别。Token级别的对齐问题在于,不同分词器处理相同语义信息时,token的划分方式可能不同,导致简单地对齐所有token效果不佳。序列级别的对齐问题在于,不同长度的序列以及语义相似但词汇不同的序列难以有效对齐。
核心思路:DWA-KD的核心思路是通过双空间权重来关注信息量大的token,并利用Soft-DTW来实现更精确的序列对齐。双空间权重机制可以提高学生模型不确定而教师模型确定的token的权重,从而使学生模型更加关注这些重要的token。Soft-DTW可以对齐不同长度的序列,并且能够捕捉到序列之间的语义相似性。
技术框架:DWA-KD框架包含两个主要部分:token级别的双空间加权知识蒸馏和序列级别的Soft-DTW对齐。在token级别,教师和学生模型的表示被映射到彼此的空间,并使用KL散度进行蒸馏,同时使用基于熵的权重来调整损失。在序列级别,Soft-DTW被应用于嵌入层和最终隐藏状态层,以实现词汇和语义的对齐。
关键创新:DWA-KD的关键创新在于双空间权重和Soft-DTW的结合使用。双空间权重能够自适应地调整不同token的重要性,从而提高蒸馏效率。Soft-DTW能够有效地对齐不同长度和语义相似的序列,从而提高序列级别的对齐效果。与现有方法相比,DWA-KD能够更有效地利用教师模型的知识,从而提高学生模型的性能。
关键设计:DWA-KD的关键设计包括:1) 双空间权重的计算方式,基于教师和学生模型输出的熵来确定权重;2) Soft-DTW的损失函数,用于衡量教师和学生模型序列之间的距离;3) 嵌入层和最终隐藏状态层的选择,这两层分别代表了词汇信息和上下文语义信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DWA-KD在多个NLP基准测试中优于现有的知识蒸馏方法。例如,在文本分类任务中,DWA-KD相比于基线方法取得了显著的性能提升。消融实验表明,双空间权重和Soft-DTW对齐都对最终性能有贡献,并且两者结合使用可以取得最佳效果。
🎯 应用场景
DWA-KD可应用于各种自然语言处理任务,尤其是在资源受限的场景下,例如移动设备或边缘计算。通过知识蒸馏,可以将大型语言模型的知识迁移到小型模型,从而在保证性能的同时降低计算成本和内存占用。该方法还可用于跨语言模型的知识迁移,从而提高低资源语言模型的性能。
📄 摘要(原文)
Knowledge Distillation (KD) has emerged as a crucial technique for compressing Large Language Models (LLMs). Although existing cross-tokenizer KD methods have made notable progress, their effectiveness remains constrained by suboptimal alignment across sequence and vocabulary levels. To address these limitations, we introduce Dual-Space Weighting and Time-Warped Alignment (DWA-KD), a novel cross-tokenizer distillation framework that enhances token-wise distillation through dual-space entropy-based weighting and achieves precise sequence-level alignment by leveraging both lexical and semantic information. At the token level, DWA-KD maps teacher representations into the student space and vice versa, performing dual-space KD via Kullback-Leibler divergence (KL). The process is modulated by dual-space weights that up-weight tokens where the student is uncertain and the teacher is confident, thereby focusing learning on informative tokens rather than treating all positions equally. At the sequence level, DWA-KD applies Soft Dynamic Time Warping (Soft-DTW) to both the embedding and final hidden-state layers, enabling robust alignment of lexical and contextual semantics between teacher and student sequences. Extensive experiments across diverse NLP benchmarks demonstrate that DWA-KD outperforms state-of-the-art KD baselines, while ablation studies confirm the complementary contributions of entropy-based token weighting and embedding and final hidden state layer Soft-DTW alignment.