Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
作者: Yaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-14
备注: 30 pages, 23 figures. Code: https://github.com/thunlp/OPD
💡 一句话要点
深入剖析On-Policy蒸馏机制,提出有效策略以提升大语言模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: On-Policy蒸馏 大语言模型 知识迁移 模型压缩 思维模式 训练动态
📋 核心要点
- 现有On-Policy蒸馏(OPD)训练动态理解不足,阻碍了大语言模型性能的进一步提升。
- 论文核心在于揭示OPD成功与否的关键因素,并提出恢复失败OPD的有效策略。
- 实验验证了OPD机制,并证明了所提策略在恢复失败蒸馏方面的有效性。
📝 摘要(中文)
On-policy蒸馏(OPD)已成为大语言模型后训练的核心技术,但其训练动态仍未被充分理解。本文对OPD的动态和机制进行了系统研究。我们首先确定了OPD成功或失败的两个条件:(i)学生模型和教师模型应具有兼容的思维模式;(ii)即使具有一致的思维模式和更高的分数,教师模型也必须提供超出学生模型在训练期间所见过的真正的新能力。我们通过弱到强的反向蒸馏验证了这些发现,表明同系列的1.5B和7B教师模型在分布上与学生模型的视角无法区分。通过对token级别机制的探究,我们表明成功的OPD的特征是在学生访问状态下的高概率token上逐步对齐,这是一个小的共享token集合,集中了大部分概率质量(97%-99%)。我们进一步提出了两种实用的策略来恢复失败的OPD:off-policy冷启动和教师对齐的prompt选择。最后,我们表明OPD表面上免费的密集token级别奖励是有代价的,提出了OPD是否可以扩展到长程蒸馏的问题。
🔬 方法详解
问题定义:本文旨在解决On-Policy蒸馏(OPD)训练过程中,学生模型无法有效学习教师模型知识的问题。现有方法缺乏对OPD训练动态和机制的深入理解,导致蒸馏效果不稳定,甚至失败。尤其是在教师模型能力远超学生模型时,简单的模仿学习可能无法奏效。
核心思路:论文的核心思路是识别OPD成功与否的关键条件,并基于此提出相应的改进策略。作者认为,学生模型和教师模型需要具有兼容的“思维模式”,并且教师模型需要提供学生模型未曾见过的“新能力”。如果这两个条件不满足,OPD就可能失败。
技术框架:论文的研究框架主要包括以下几个部分:1) 通过弱到强的反向蒸馏实验,验证学生模型和教师模型之间“思维模式”的兼容性;2) 通过token级别的分析,揭示OPD过程中token概率分布的变化;3) 提出off-policy冷启动和教师对齐的prompt选择两种策略,以恢复失败的OPD;4) 探讨OPD在长程蒸馏中的潜在问题。
关键创新:论文最重要的技术创新在于对OPD机制的深入理解,即提出了“兼容的思维模式”和“提供新能力”这两个关键条件。此外,提出的off-policy冷启动和教师对齐的prompt选择策略,为解决OPD失败问题提供了新的思路。
关键设计:在off-policy冷启动策略中,作者利用学生模型未曾见过的样本进行预训练,以扩大其探索空间。在教师对齐的prompt选择策略中,作者选择那些能够最大化教师模型和学生模型输出差异的prompt,以引导学生模型学习教师模型的独特知识。具体的损失函数和网络结构与标准的OPD方法类似,但关键在于数据选择和训练策略的调整。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了OPD成功与否的关键条件,并证明了所提出的off-policy冷启动和教师对齐的prompt选择策略能够有效恢复失败的OPD。Token级别的分析表明,成功的OPD主要依赖于学生访问状态下的高概率token的对齐,这些token集中了大部分的概率质量(97%-99%)。
🎯 应用场景
该研究成果可应用于大语言模型的持续学习、知识迁移和模型压缩等领域。通过理解OPD的内在机制,可以更有效地利用OPD技术提升学生模型的性能,降低模型部署成本,并加速新模型的开发。
📄 摘要(原文)
On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.