SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation
作者: Jie Sun, Mao Zheng, Mingyang Song, Qiyong Zhong, Yilin Cheng, Bichuan Feng, Pengfei Liu, Junfeng Fang, Xiang Wang
分类: cs.CL
发布日期: 2026-05-08
备注: 4 figures, 6 tables, 28 pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出SimCT方法,通过跨分词器对齐恢复策略解决异构模型蒸馏中的监督信号丢失问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 大语言模型 分词器对齐 在线策略蒸馏 模型压缩 自然语言处理
📋 核心要点
- 现有在线策略蒸馏方法依赖共享Token匹配,在异构分词器场景下会导致大量教师监督信号在词表不一致处被静默丢弃。
- SimCT通过引入短多Token连续序列作为监督单元,在保持原有损失函数结构的同时,扩大了师生模型间的对齐空间。
- 实验证明该方法在数学推理与代码生成任务中表现优异,有效恢复了被丢失的监督信息,显著提升了蒸馏效果。
📝 摘要(中文)
在线策略蒸馏(OPD)是将教师模型行为迁移至小型学生模型的标准方法,但它隐含假设教师与学生模型在逐个Token的预测上具有可比性。当两个模型使用不同的分词器(Tokenizer)时,该假设失效。在异构分词器场景下,精确的共享Token匹配会静默丢弃大量教师监督信号,尤其是在词表不一致的位置。本文提出了简单跨分词器OPD(SimCT),通过扩大监督空间来恢复这些信号:除了共享Token外,SimCT还在两个分词器均能实现的短多Token连续序列上比较教师与学生模型,且保持OPD损失函数形式不变。研究表明,这些单元是实现联合可分词监督的最细粒度接口,而更粗粒度的替代方案会抹除对在线学习有用的教师-学生差异。在数学推理和代码生成基准测试中,SimCT在三种异构师生对上均优于共享词表OPD及代表性基线,消融实验证实了性能提升源于对被丢弃监督信号的恢复。
🔬 方法详解
问题定义:在异构分词器(Tokenizer)的师生模型蒸馏中,传统的在线策略蒸馏(OPD)仅能对齐完全相同的Token。当分词方式不同时,模型无法在这些位置进行有效的知识迁移,导致大量教师监督信号丢失。
核心思路:SimCT的核心思想是寻找“联合可分词”的最小单位。通过将监督范围从单一Token扩展到能够被双方分词器共同表示的短多Token序列,从而在不改变OPD损失函数形式的前提下,最大化利用教师模型的输出分布。
技术框架:该方法首先识别师生分词器在同一文本片段上的对齐边界,构建一个跨分词器的对齐映射表。在训练过程中,对于无法直接对齐的Token,系统会动态寻找双方均能覆盖的最小文本片段,并计算该片段上的概率分布差异。
关键创新:最重要的创新在于定义了“最细粒度联合可分词监督接口”。相比于以往强制对齐或忽略不匹配位置的方法,SimCT在保持监督信号精度的同时,通过多Token连续序列填补了异构分词器间的语义鸿沟。
关键设计:SimCT保留了标准的KL散度损失函数,仅通过调整监督目标的采样空间来实现。它通过动态规划算法高效计算最优对齐路径,确保在计算开销可控的情况下,实现对教师模型输出分布的全面蒸馏。
🖼️ 关键图片
📊 实验亮点
SimCT在数学推理(GSM8K, MATH)和代码生成(HumanEval)任务中表现出色。实验结果显示,在三种异构师生模型组合下,SimCT均显著超越了传统的共享词表OPD基线。消融实验明确指出,性能提升直接归因于对原本被丢弃的监督信号的有效恢复,证明了该方法在处理异构分词器时的鲁棒性与高效性。
🎯 应用场景
该研究主要应用于大语言模型(LLM)的轻量化与知识蒸馏领域。特别是在需要将高性能大模型(如GPT-4)蒸馏至小型模型(如Llama-3-8B)且两者分词器不兼容的实际生产场景中,SimCT能显著提升学生模型的推理能力与代码生成质量,降低部署成本。
📄 摘要(原文)
On-policy distillation (OPD) is a standard tool for transferring teacher behavior to a smaller student, but it implicitly assumes that teacher and student predictions are comparable token by token, an assumption that fails whenever the two models tokenize the same text differently. Under heterogeneous tokenizers, exact shared-token matching silently discards a large fraction of the teacher signal at precisely the positions where vocabularies disagree. We propose \textbf{\underline{Sim}ple \underline{C}ross-\underline{T}okenizer OPD (SimCT)}, which restores this signal by enlarging the supervision space: alongside shared tokens, SimCT compares teacher and student over short multi-token continuations that both tokenizers can realize, leaving the OPD loss form itself unchanged. We show that these units are the finest jointly tokenizable supervision interface, and that coarser alternatives remove teacher-student distinctions that are useful for on-policy learning. Across three heterogeneous teacher-student pairs on mathematical reasoning and code-generation benchmarks, SimCT shows consistent gains over shared-vocabulary OPD and representative cross-tokenizer baselines, with ablations confirming that the improvements come from recovering supervision discarded by exact shared-token matching. Code is available at \href{https://github.com/sunjie279/SimCT-}{https://github.com/sunjie279/SimCT-}.