Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation
作者: Kaiyuan Liu, Ziyuan Zhuang, Yang Bai, Bing Wang, Rongxiang Weng, Jieping Ye
分类: cs.CL
发布日期: 2026-05-13
💡 一句话要点
提出局部可教性崩塌现象,并设计自适应截断策略优化强弱On-Policy蒸馏。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: On-policy蒸馏 局部可教性崩塌 轨迹截断 强弱模型蒸馏 知识蒸馏 贝叶斯信息准则 Qwen3
📋 核心要点
- 现有On-policy蒸馏方法在强弱模型蒸馏时,忽略了轨迹后期反馈的局部对比度不足问题,导致学生模型学习效率降低。
- 论文提出一种基于轨迹的释放规则,通过动态截断轨迹中可教性较差的部分,集中监督可教性强的区域,提升蒸馏效果。
- 实验表明,该方法在多个任务上优于全轨迹蒸馏,并在领域外任务中表现出更好的泛化能力,验证了局部可教性评估的有效性。
📝 摘要(中文)
本文研究了强教师到弱学生的On-policy蒸馏(OPD)中出现的局部可教性崩塌问题。尽管教师的反馈通常被认为是有益的,但本文发现,在轨迹的后期,教师-学生之间的优势可能仍然存在,但缺乏足够的局部对比度,导致密集反馈无法有效指导学生学习。针对此问题,本文提出了一种基于轨迹的释放规则,该规则通过测量教师相对于学生top-$K$候选集的优势,并使用BIC准则检测NLTK分词后的句子片段中的变化点,从而截断密集OPD监督。在Qwen3模型家族上的实验表明,该方法在多个领域内基准测试中优于标准的全轨迹OPD,并且在领域外任务中更好地保留了模型能力。研究结果表明,有效的强弱OPD不仅需要评估教师指导的可用性,还需要评估其局部效用,确保生成的反馈仍然具有可教性。
🔬 方法详解
问题定义:现有On-policy蒸馏方法在强教师到弱学生的场景下,通常假设教师提供的反馈在整个轨迹上都是有用的。然而,实际情况是,轨迹的后期部分可能存在“局部可教性崩塌”现象,即教师-学生之间的差距虽然存在,但局部对比度不足,导致学生难以有效学习。这种情况下,对整个轨迹进行监督反而会引入噪声,降低学习效率。
核心思路:论文的核心思路是,并非所有教师的反馈都是同等有用的,应该集中精力监督那些教师反馈仍然具有区分性的轨迹区域。通过自适应地截断那些可教性较差的轨迹片段,可以提高蒸馏效率,并避免引入不必要的噪声。
技术框架:该方法的核心是一个轨迹特定的释放规则,用于决定何时停止对轨迹片段的监督。具体流程如下:1. 使用NLTK对生成的句子进行分词。2. 对于每个分词后的句子片段,计算教师模型相对于学生模型top-$K$候选集的优势(margin)。3. 将这些优势值聚合起来,形成一个轨迹上的可教性指标。4. 使用BIC(贝叶斯信息准则)风格的下降点检测算法,找到可教性指标显著下降的点,并在该点截断后续的监督。
关键创新:该方法最重要的创新点在于,它提出了“局部可教性崩塌”的概念,并意识到在强弱蒸馏中,并非所有教师的反馈都是有用的。通过引入轨迹特定的释放规则,可以自适应地选择性地监督轨迹片段,从而提高蒸馏效率。与现有方法不同,该方法不再盲目地对整个轨迹进行监督,而是更加关注教师反馈的局部效用。
关键设计:关键设计包括:1. 教师-学生优势的计算方式:论文采用教师模型对正确token的log概率与学生模型top-K个token的log概率之差作为优势的度量。2. 下降点检测算法:使用BIC准则来判断可教性指标是否显著下降,从而决定是否截断监督。3. 超参数K的选择:K值影响了学生模型候选集的范围,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Qwen3模型家族的强弱蒸馏任务中,在五个领域内基准测试上始终优于标准的全轨迹OPD。此外,与基线蒸馏方法相比,该方法在领域外任务中更好地保留了模型能力。例如,在特定任务上,该方法相比于全轨迹蒸馏,性能提升了X%(具体数值需参考论文原文)。
🎯 应用场景
该研究成果可应用于各种需要模型压缩和加速的场景,例如自然语言处理、机器翻译、对话系统等。通过更有效地利用教师模型的知识,可以训练出更小、更快、更高效的学生模型,从而降低计算成本,提高部署效率。此外,该方法在领域外任务上的良好表现,也使其在迁移学习和领域自适应等领域具有潜在的应用价值。
📄 摘要(原文)
On-policy distillation (OPD) trains a student model on its own rollouts using dense feedback from a stronger teacher. Prior literature suggests that, provided teacher feedback is available, supervising the full sequence of response tokens should monotonically improve performance. However, we demonstrate that this assumption sometimes fails to hold in strong-to-weak OPD settings. While later segments of a generated trajectory may still exhibit a non-zero teacher-student advantage, they frequently lack the local contrast that makes dense feedback effective for prioritizing student learning. We term this failure mode local teachability collapse. The resulting principle is straightforward: supervision should concentrate on trajectory regions where the teacher's feedback remains discriminative, rather than uniformly covering the entire response. We operationalize this principle through a trajectory-specific release rule. This rule measures the teacher's margin over the student's top-$K$ candidate set, aggregates this margin across NLTK-tokenized sentence segments, and truncates dense OPD supervision upon detecting a BIC-style downward change point. Experimental results across strong-to-weak distillation tasks using the Qwen3 model family indicate that this release rule consistently outperforms standard full-trajectory OPD across five in-domain benchmarks at various student scales. Furthermore, compared to baseline distillation methods, our approach better preserves model capabilities on out-of-domain task. These results suggest that effective strong-to-weak OPD requires evaluating not only the availability of teacher guidance but also its local utility, ensuring that the generated feedback remains teachable.