Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

作者: Yuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

分类: cs.LG

发布日期: 2026-05-26

💡 一句话要点

提出Teachability-Aware OPD，通过选择可学习的token信号提升On-policy蒸馏效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: On-policy蒸馏 Token Teachability 选择性蒸馏 模型压缩 知识蒸馏

📋 核心要点

现有选择性OPD方法依赖高熵或高差异token，但忽略了并非所有差异都可学习的问题。
论文提出Token Teachability概念，量化教师信号对学生的局部兼容性，指导token选择。
TA-OPD方法仅保留高Teachability token，在Qwen2.5和Qwen3上超越全token OPD和现有基线。

📝 摘要（中文）

On-policy蒸馏(OPD)通过token级别的教师监督，在学生自身的rollout上进行训练。最近的选择性OPD方法通过优先考虑高熵或高差异的token来利用OPD信号的非均匀性。本文重新审视了这一原则，并提出问题：哪些token级别的教师信号实际上是可学习的？通过测量相同上下文教师-学生KL散度减少的固定上下文诊断，我们表明原始KL差异是学习价值的粗略代理。它混淆了可学习的差异（教师将修正质量分配给学生的前K个候选者）和不兼容的差异（教师主要将质量放在学生当前支持之外）。我们将这种局部兼容性形式化为token teachability，并表明它比单独的原始KL更好地预测固定上下文的改进。受此发现的启发，我们提出了一种Teachability-Aware OPD(TA-OPD)，这是一种轻量级的token位置选择方法，它将OPD损失应用于高teachability的位置，而无需奖励模型或验证器。在Qwen2.5和Qwen3教师-学生设置中，TA-OPD通常仅用5%的保留token就超过了全token OPD，并且优于基于熵和散度的基线。我们的结果将选择性OPD重新定义为选择可学习的教师信号，而不仅仅是显著的token。

🔬 方法详解

问题定义：现有的On-policy蒸馏(OPD)方法，特别是选择性OPD，通常依赖于token级别的信息，例如熵或教师-学生之间的KL散度，来选择重要的token进行学习。然而，简单地选择高熵或高差异的token并不一定能带来最佳的学习效果。因为教师提供的信号可能与学生当前的能力不兼容，导致学生难以学习。因此，如何区分可学习的教师信号和不可学习的信号是一个关键问题。

核心思路：论文的核心思路是引入“Token Teachability”的概念，用于衡量教师信号对于学生来说的可学习程度。Teachability越高，表示教师提供的信号越容易被学生吸收和利用，从而提高学习效率。通过选择具有高Teachability的token进行训练，可以避免浪费计算资源在学生难以学习的token上，从而提升蒸馏效果。

技术框架：TA-OPD (Teachability-Aware OPD) 的整体框架如下：首先，计算每个token的Teachability得分。然后，根据Teachability得分选择一部分token。最后，仅在选定的token上应用OPD损失进行训练。该框架的关键在于Teachability的计算方法。论文使用固定上下文诊断来测量相同上下文教师-学生KL散度的减少，以此来评估Teachability。

关键创新：论文的关键创新在于提出了Token Teachability的概念，并将其应用于选择性OPD中。与以往基于熵或KL散度的选择方法不同，Teachability能够更准确地衡量教师信号对于学生的可学习性，从而实现更有效的token选择。这种方法避免了将计算资源浪费在学生难以学习的token上，提高了学习效率。

关键设计：Teachability的计算是TA-OPD的关键。论文使用固定上下文诊断，具体来说，对于给定的token位置，计算教师和学生在该位置的概率分布的KL散度。然后，通过比较在有教师指导和没有教师指导的情况下，学生在该位置的KL散度减少量，来评估Teachability。Teachability越高，表示教师的指导越有效。在具体实现中，可以选择保留固定比例（例如5%）的具有最高Teachability得分的token进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TA-OPD在Qwen2.5和Qwen3教师-学生设置中，仅使用5%的保留token就能够超越全token OPD，并且优于基于熵和散度的基线方法。这表明TA-OPD能够有效地选择可学习的教师信号，从而提高蒸馏效率。例如，在某些实验中，TA-OPD能够将模型的性能提升超过1个百分点，同时显著减少计算量。

🎯 应用场景

该研究成果可应用于各种需要模型压缩和加速的场景，例如移动设备上的自然语言处理、边缘计算等。通过选择性地蒸馏可学习的token，可以显著减少计算量，提高模型推理速度，同时保持较高的模型性能。此外，该方法还可以用于指导课程学习，帮助学生模型更快地掌握知识。

📄 摘要（原文）

On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.

Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理