Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation

作者: Yanjiang Liu, Jie Lou, Xinyan Guan, Yuqiu Ji, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu

分类: cs.CL, cs.AI

发布日期: 2026-05-29

💡 一句话要点

提出Lookahead Group Reward以解决监督信度衰减问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 监督信度衰减 政策蒸馏 长推理链 Lookahead Group Reward 教师模型 学生模型 反向KL蒸馏 生成模型

📋 核心要点

现有的政策蒸馏方法在长推理链中面临监督信度衰减（SFD）问题，导致学生模型的性能下降。
本文提出Lookahead Group Reward，通过评估学生候选令牌在后续步骤中的教师信心来增强监督信号。
在六个基准测试中，提出的方法在7B学生模型上平均提升了2.57分，且在长生成任务中效果更显著。

📝 摘要（中文）

在政策蒸馏中，通过使用教师模型的反馈训练学生模型，但存在一个关键瓶颈：监督信度衰减（SFD）。随着学生生成的前缀长度增加，教师的下一个令牌分布变得不够自信和不够区分，从而导致反向KL蒸馏中的教师依赖性纠正信号减弱。为了解决SFD问题，本文提出了Lookahead Group Reward方法，该方法通过评估学生的前K个候选令牌在后续步骤中引发的教师信心来分配奖励。实验表明，该方法在六个数学和代码基准测试中显著提高了性能。

🔬 方法详解

问题定义：本文旨在解决在政策蒸馏中，随着学生生成的前缀长度增加，教师的监督信号信度衰减的问题。现有方法在长推理链中表现不佳，导致学生模型性能下降。

核心思路：提出Lookahead Group Reward方法，基于教师对未来步骤的信心评估学生的候选令牌，从而增强监督信号的有效性。通过这种方式，能够有效减轻监督信度衰减带来的负面影响。

技术框架：整体架构包括学生模型生成候选令牌、教师模型评估候选令牌的信心、以及根据信心分配奖励的模块。该框架确保了在每一步都能获得有效的反馈。

关键创新：最重要的创新在于引入了Lookahead Group Reward机制，通过评估教师信心来优化学生模型的学习过程。这一方法与传统的反向KL蒸馏方法相比，显著提高了监督信号的质量。

关键设计：在设计中，采用了基于熵触发的树状注意力机制，以保持计算效率。此外，奖励的分配采用了组归一化的方法，以确保不同候选令牌的公平比较。

🖼️ 关键图片

📊 实验亮点

实验结果显示，Lookahead Group Reward方法在六个数学和代码基准测试中，平均提升了2.57分，尤其在长生成任务上表现更为突出，在AIME-26数据集上达到了4.92分的提升，显示出显著的性能改进。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、代码生成和复杂推理任务等。通过提高学生模型在长推理链中的表现，该方法可以在实际应用中提升模型的决策能力和生成质量，具有重要的实际价值和未来影响。

📄 摘要（原文）

On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level feedback from a teacher. However, we identify a critical bottleneck, \textbf{Supervision Fidelity Decay (SFD)}: as student-generated prefixes lengthen, the teacher's next-token distribution becomes less confident and less discriminative. Consequently, the teacher-dependent corrective signal in reverse-KL distillation weakens, causing student drift to compound across long reasoning chains. To mitigate SFD, we introduce \textbf{Lookahead Group Reward (\ours{})}. Building on the insight that next-step teacher confidence reflects the discriminative strength of future reverse-KL supervision, \ours{} evaluates the student's top-K candidate tokens by the teacher confidence they induce at the subsequent step and assigns a group-normalized reward. To maintain computational efficiency, we further design an entropy-triggered tree-attention mechanism. Across six math and code benchmarks, \ours{} improves mean@8 by \textbf{2.57} points over OPD for a 7B student, with gains increasing in longer-generation and reaching +\textbf{4.92} points on AIME-26 at 39k tokens.

Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理