Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation

📄 arXiv: 2605.30833v1 📥 PDF

作者: Yanjiang Liu, Jie Lou, Xinyan Guan, Yuqiu Ji, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu

分类: cs.CL, cs.AI

发布日期: 2026-05-29


💡 一句话要点

提出Lookahead Group Reward以解决监督信度衰减问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 监督信度衰减 政策蒸馏 长推理链 Lookahead Group Reward 教师模型 学生模型 反向KL蒸馏 生成模型

📋 核心要点

  1. 现有的政策蒸馏方法在长推理链中面临监督信度衰减(SFD)问题,导致学生模型的性能下降。
  2. 本文提出Lookahead Group Reward,通过评估学生候选令牌在后续步骤中的教师信心来增强监督信号。
  3. 在六个基准测试中,提出的方法在7B学生模型上平均提升了2.57分,且在长生成任务中效果更显著。

📝 摘要(中文)

在政策蒸馏中,通过使用教师模型的反馈训练学生模型,但存在一个关键瓶颈:监督信度衰减(SFD)。随着学生生成的前缀长度增加,教师的下一个令牌分布变得不够自信和不够区分,从而导致反向KL蒸馏中的教师依赖性纠正信号减弱。为了解决SFD问题,本文提出了Lookahead Group Reward方法,该方法通过评估学生的前K个候选令牌在后续步骤中引发的教师信心来分配奖励。实验表明,该方法在六个数学和代码基准测试中显著提高了性能。

🔬 方法详解

问题定义:本文旨在解决在政策蒸馏中,随着学生生成的前缀长度增加,教师的监督信号信度衰减的问题。现有方法在长推理链中表现不佳,导致学生模型性能下降。

核心思路:提出Lookahead Group Reward方法,基于教师对未来步骤的信心评估学生的候选令牌,从而增强监督信号的有效性。通过这种方式,能够有效减轻监督信度衰减带来的负面影响。

技术框架:整体架构包括学生模型生成候选令牌、教师模型评估候选令牌的信心、以及根据信心分配奖励的模块。该框架确保了在每一步都能获得有效的反馈。

关键创新:最重要的创新在于引入了Lookahead Group Reward机制,通过评估教师信心来优化学生模型的学习过程。这一方法与传统的反向KL蒸馏方法相比,显著提高了监督信号的质量。

关键设计:在设计中,采用了基于熵触发的树状注意力机制,以保持计算效率。此外,奖励的分配采用了组归一化的方法,以确保不同候选令牌的公平比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Lookahead Group Reward方法在六个数学和代码基准测试中,平均提升了2.57分,尤其在长生成任务上表现更为突出,在AIME-26数据集上达到了4.92分的提升,显示出显著的性能改进。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、代码生成和复杂推理任务等。通过提高学生模型在长推理链中的表现,该方法可以在实际应用中提升模型的决策能力和生成质量,具有重要的实际价值和未来影响。

📄 摘要(原文)

On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level feedback from a teacher. However, we identify a critical bottleneck, \textbf{Supervision Fidelity Decay (SFD)}: as student-generated prefixes lengthen, the teacher's next-token distribution becomes less confident and less discriminative. Consequently, the teacher-dependent corrective signal in reverse-KL distillation weakens, causing student drift to compound across long reasoning chains. To mitigate SFD, we introduce \textbf{Lookahead Group Reward (\ours{})}. Building on the insight that next-step teacher confidence reflects the discriminative strength of future reverse-KL supervision, \ours{} evaluates the student's top-K candidate tokens by the teacher confidence they induce at the subsequent step and assigns a group-normalized reward. To maintain computational efficiency, we further design an entropy-triggered tree-attention mechanism. Across six math and code benchmarks, \ours{} improves mean@8 by \textbf{2.57} points over OPD for a 7B student, with gains increasing in longer-generation and reaching +\textbf{4.92} points on AIME-26 at 39k tokens.