Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation
作者: Yuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang
分类: cs.LG
发布日期: 2026-05-26
💡 一句话要点
提出Teachability-Aware OPD,通过选择可学习的token信号提升On-policy蒸馏效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: On-policy蒸馏 Token Teachability 选择性蒸馏 模型压缩 知识蒸馏
📋 核心要点
- 现有选择性OPD方法依赖高熵或高差异token,但忽略了并非所有差异都可学习的问题。
- 论文提出Token Teachability概念,量化教师信号对学生的局部兼容性,指导token选择。
- TA-OPD方法仅保留高Teachability token,在Qwen2.5和Qwen3上超越全token OPD和现有基线。
📝 摘要(中文)
On-policy蒸馏(OPD)通过token级别的教师监督,在学生自身的rollout上进行训练。最近的选择性OPD方法通过优先考虑高熵或高差异的token来利用OPD信号的非均匀性。本文重新审视了这一原则,并提出问题:哪些token级别的教师信号实际上是可学习的?通过测量相同上下文教师-学生KL散度减少的固定上下文诊断,我们表明原始KL差异是学习价值的粗略代理。它混淆了可学习的差异(教师将修正质量分配给学生的前K个候选者)和不兼容的差异(教师主要将质量放在学生当前支持之外)。我们将这种局部兼容性形式化为token teachability,并表明它比单独的原始KL更好地预测固定上下文的改进。受此发现的启发,我们提出了一种Teachability-Aware OPD(TA-OPD),这是一种轻量级的token位置选择方法,它将OPD损失应用于高teachability的位置,而无需奖励模型或验证器。在Qwen2.5和Qwen3教师-学生设置中,TA-OPD通常仅用5%的保留token就超过了全token OPD,并且优于基于熵和散度的基线。我们的结果将选择性OPD重新定义为选择可学习的教师信号,而不仅仅是显著的token。
🔬 方法详解
问题定义:现有的On-policy蒸馏(OPD)方法,特别是选择性OPD,通常依赖于token级别的信息,例如熵或教师-学生之间的KL散度,来选择重要的token进行学习。然而,简单地选择高熵或高差异的token并不一定能带来最佳的学习效果。因为教师提供的信号可能与学生当前的能力不兼容,导致学生难以学习。因此,如何区分可学习的教师信号和不可学习的信号是一个关键问题。
核心思路:论文的核心思路是引入“Token Teachability”的概念,用于衡量教师信号对于学生来说的可学习程度。Teachability越高,表示教师提供的信号越容易被学生吸收和利用,从而提高学习效率。通过选择具有高Teachability的token进行训练,可以避免浪费计算资源在学生难以学习的token上,从而提升蒸馏效果。
技术框架:TA-OPD (Teachability-Aware OPD) 的整体框架如下:首先,计算每个token的Teachability得分。然后,根据Teachability得分选择一部分token。最后,仅在选定的token上应用OPD损失进行训练。该框架的关键在于Teachability的计算方法。论文使用固定上下文诊断来测量相同上下文教师-学生KL散度的减少,以此来评估Teachability。
关键创新:论文的关键创新在于提出了Token Teachability的概念,并将其应用于选择性OPD中。与以往基于熵或KL散度的选择方法不同,Teachability能够更准确地衡量教师信号对于学生的可学习性,从而实现更有效的token选择。这种方法避免了将计算资源浪费在学生难以学习的token上,提高了学习效率。
关键设计:Teachability的计算是TA-OPD的关键。论文使用固定上下文诊断,具体来说,对于给定的token位置,计算教师和学生在该位置的概率分布的KL散度。然后,通过比较在有教师指导和没有教师指导的情况下,学生在该位置的KL散度减少量,来评估Teachability。Teachability越高,表示教师的指导越有效。在具体实现中,可以选择保留固定比例(例如5%)的具有最高Teachability得分的token进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TA-OPD在Qwen2.5和Qwen3教师-学生设置中,仅使用5%的保留token就能够超越全token OPD,并且优于基于熵和散度的基线方法。这表明TA-OPD能够有效地选择可学习的教师信号,从而提高蒸馏效率。例如,在某些实验中,TA-OPD能够将模型的性能提升超过1个百分点,同时显著减少计算量。
🎯 应用场景
该研究成果可应用于各种需要模型压缩和加速的场景,例如移动设备上的自然语言处理、边缘计算等。通过选择性地蒸馏可学习的token,可以显著减少计算量,提高模型推理速度,同时保持较高的模型性能。此外,该方法还可以用于指导课程学习,帮助学生模型更快地掌握知识。
📄 摘要(原文)
On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.