Teacher-Guided Policy Optimization for LLM Distillation

📄 arXiv: 2605.13230v1 📥 PDF

作者: Xinyu Liu, Kechen Jiao, Chunyang Xiao, Runsong Zhao, Junhao Ruan, Bei Li, Jiahao Liu, Qifan Wang, Xin Chen, Jingang Wang, Tong Xiao, JingBo Zhu

分类: cs.LG, cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出TGPO算法,通过教师引导策略优化解决LLM蒸馏中负反馈问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM蒸馏 策略优化 强化学习 模仿学习 教师引导 反向KL散度 在线学习

📋 核心要点

  1. 现有基于反向KL散度的LLM蒸馏方法在学生和教师分布差异大时,会因负反馈信息不足而失效。
  2. TGPO算法利用教师模型在学生rollout上的预测,提供密集的指导信号,从而优化学生策略。
  3. 实验表明,TGPO在复杂推理任务上显著优于现有基线方法,并且对不同的教师模型具有鲁棒性。

📝 摘要(中文)

强化学习和模仿学习的融合使得反向KL散度(RKL)成为LLM在线蒸馏的一种有前景的范例,旨在统一探索与教师监督。然而,我们发现了一个关键的局限性:当学生和教师分布差异显著时,由于信息量不足的负反馈,标准RKL通常无法产生有意义的改进。为了解决这种低效问题,我们提出了一种教师引导策略优化(TGPO)的在线算法,该算法通过利用以学生rollout为条件的教师预测来结合密集的定向指导。由于TGPO保持在线策略,该算法可以与现有的RLVR框架无缝集成,而无需额外的数据标注。在复杂推理基准上的实验表明,TGPO显著优于标准基线,并且对不同的教师具有鲁棒性。

🔬 方法详解

问题定义:论文旨在解决LLM蒸馏过程中,当学生模型和教师模型策略差异较大时,标准的反向KL散度(RKL)方法由于负反馈信息不足,导致学生模型学习效率低下的问题。现有方法的痛点在于,学生模型难以从教师模型中获得有效的指导,尤其是在探索阶段,容易陷入局部最优。

核心思路:论文的核心解决思路是引入教师引导,通过教师模型在学生模型rollout上的预测,为学生模型提供密集的、方向性的指导信号。这样,即使学生模型和教师模型策略差异较大,学生模型也能获得有效的学习信号,从而提高学习效率和最终性能。这种方法类似于在强化学习中引入了额外的奖励信号,引导智能体朝着正确的方向探索。

技术框架:TGPO算法是一个在线策略优化算法,可以与现有的RLVR框架无缝集成。其主要流程如下:1. 学生模型与环境交互,生成rollout数据;2. 教师模型在学生模型的rollout数据上进行预测,生成指导信号;3. 利用指导信号和环境奖励,更新学生模型的策略。整个过程是一个迭代的过程,学生模型不断与环境交互,并根据教师模型的指导信号进行学习。

关键创新:TGPO算法最重要的技术创新点在于引入了教师引导的策略优化。与传统的RKL方法相比,TGPO算法不仅考虑了学生模型和教师模型策略的差异,还利用教师模型提供的额外信息,为学生模型提供更有效的学习信号。这种方法可以显著提高学生模型的学习效率和最终性能,尤其是在学生模型和教师模型策略差异较大时。

关键设计:TGPO算法的关键设计包括:1. 指导信号的生成方式:教师模型在学生模型rollout上的预测结果被用作指导信号,指导信号的强度可以通过调整权重来控制;2. 损失函数的设计:损失函数综合考虑了环境奖励和教师指导信号,通过调整两者的权重来平衡探索和利用;3. 策略更新方式:采用标准的策略梯度方法更新学生模型的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TGPO算法在复杂推理基准上显著优于标准基线方法,例如在某些任务上性能提升超过10%。此外,TGPO算法对不同的教师模型具有鲁棒性,即使教师模型的性能不是最优,TGPO算法也能有效地指导学生模型的学习。

🎯 应用场景

该研究成果可应用于各种需要知识迁移和模型压缩的场景,例如将大型语言模型的知识迁移到小型设备上,或者利用专家知识指导智能体的学习过程。此外,该方法还可以用于提高强化学习算法的鲁棒性和泛化能力,使其能够更好地适应复杂和动态的环境。

📄 摘要(原文)

The convergence of reinforcement learning and imitation learning has positioned Reverse KL (RKL) as a promising paradigm for on-policy LLM distillation, aiming to unify exploration with teacher supervision. However, we identify a critical limitation: when the student and teacher distributions diverge significantly, standard RKL often fails to yield meaningful improvement due to uninformative negative feedback. To address this inefficiency, we propose Teacher-Guided Policy Optimization (TGPO), an on-policy algorithm that incorporates dense directional guidance by leveraging teacher predictions conditioned on the student's rollout. Because TGPO remains on-policy, the algorithm integrates seamlessly with existing RLVR frameworks without requiring additional data annotation. Experiments on complex reasoning benchmarks demonstrate that TGPO significantly outperforms standard baselines and is robust to different teachers.