Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation
作者: Yanjiang Liu, Jie Lou, Xinyan Guan, Yuqiu Ji, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu
分类: cs.CL, cs.AI
发布日期: 2026-05-29
💡 一句话要点
提出Lookahead Group Reward以解决监督信度衰减问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 监督信度衰减 政策蒸馏 长推理链 Lookahead Group Reward 教师模型 学生模型 反向KL蒸馏 生成模型
📋 核心要点
- 现有的政策蒸馏方法在长推理链中面临监督信度衰减(SFD)问题,导致学生模型的性能下降。
- 本文提出Lookahead Group Reward,通过评估学生候选令牌在后续步骤中的教师信心来增强监督信号。
- 在六个基准测试中,提出的方法在7B学生模型上平均提升了2.57分,且在长生成任务中效果更显著。
📝 摘要(中文)
在政策蒸馏中,通过使用教师模型的反馈训练学生模型,但存在一个关键瓶颈:监督信度衰减(SFD)。随着学生生成的前缀长度增加,教师的下一个令牌分布变得不够自信和不够区分,从而导致反向KL蒸馏中的教师依赖性纠正信号减弱。为了解决SFD问题,本文提出了Lookahead Group Reward方法,该方法通过评估学生的前K个候选令牌在后续步骤中引发的教师信心来分配奖励。实验表明,该方法在六个数学和代码基准测试中显著提高了性能。
🔬 方法详解
问题定义:本文旨在解决在政策蒸馏中,随着学生生成的前缀长度增加,教师的监督信号信度衰减的问题。现有方法在长推理链中表现不佳,导致学生模型性能下降。
核心思路:提出Lookahead Group Reward方法,基于教师对未来步骤的信心评估学生的候选令牌,从而增强监督信号的有效性。通过这种方式,能够有效减轻监督信度衰减带来的负面影响。
技术框架:整体架构包括学生模型生成候选令牌、教师模型评估候选令牌的信心、以及根据信心分配奖励的模块。该框架确保了在每一步都能获得有效的反馈。
关键创新:最重要的创新在于引入了Lookahead Group Reward机制,通过评估教师信心来优化学生模型的学习过程。这一方法与传统的反向KL蒸馏方法相比,显著提高了监督信号的质量。
关键设计:在设计中,采用了基于熵触发的树状注意力机制,以保持计算效率。此外,奖励的分配采用了组归一化的方法,以确保不同候选令牌的公平比较。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Lookahead Group Reward方法在六个数学和代码基准测试中,平均提升了2.57分,尤其在长生成任务上表现更为突出,在AIME-26数据集上达到了4.92分的提升,显示出显著的性能改进。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、代码生成和复杂推理任务等。通过提高学生模型在长推理链中的表现,该方法可以在实际应用中提升模型的决策能力和生成质量,具有重要的实际价值和未来影响。
📄 摘要(原文)
On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level feedback from a teacher. However, we identify a critical bottleneck, \textbf{Supervision Fidelity Decay (SFD)}: as student-generated prefixes lengthen, the teacher's next-token distribution becomes less confident and less discriminative. Consequently, the teacher-dependent corrective signal in reverse-KL distillation weakens, causing student drift to compound across long reasoning chains. To mitigate SFD, we introduce \textbf{Lookahead Group Reward (\ours{})}. Building on the insight that next-step teacher confidence reflects the discriminative strength of future reverse-KL supervision, \ours{} evaluates the student's top-K candidate tokens by the teacher confidence they induce at the subsequent step and assigns a group-normalized reward. To maintain computational efficiency, we further design an entropy-triggered tree-attention mechanism. Across six math and code benchmarks, \ours{} improves mean@8 by \textbf{2.57} points over OPD for a 7B student, with gains increasing in longer-generation and reaching +\textbf{4.92} points on AIME-26 at 39k tokens.