Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

📄 arXiv: 2605.13255v1 📥 PDF

作者: Junlong Ke, Zichen Wen, Weijia Li, Conghui He, Linfeng Zhang

分类: cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出EGRSD和CL-EGRSD,通过熵引导的自蒸馏提升LLM推理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自蒸馏 熵引导 强化学习 推理效率 链式思考 知识蒸馏

📋 核心要点

  1. 现有自蒸馏方法在CoT序列中均匀加权token级别的监督信号,忽略了教师模型预测分布中熵的显著变化。
  2. EGRSD通过教师熵置信度门控动态调整token权重,降低高熵token的影响,同时保证所有token都有最小权重。
  3. 实验表明,EGRSD及其变体CL-EGRSD在Qwen3系列模型上,提升了推理准确率,并在准确率-长度权衡上优于现有方法。

📝 摘要(中文)

本文提出了一种熵引导的强化自蒸馏方法EGRSD,旨在提升大型语言模型(LLM)的推理效率。EGRSD统一了token级别的更新,利用三个信号:奖励导向的方向、师生模型之间的似然比幅度,以及提出的教师熵置信度门控。该门控降低了高熵token位置的权重,同时保持每个token权重的非零下界。此外,还引入了CL-EGRSD,这是一种因果前瞻变体,区分了持续高熵跨度和瞬时高熵位置。在Qwen3-4B和Qwen3-8B的思维模式实验表明,EGRSD和CL-EGRSD在可训练方法中提高了准确率-长度边界。

🔬 方法详解

问题定义:现有基于On-policy的自蒸馏方法在训练推理模型时,通常采用教师模型(通常是同一模型,但具有特权上下文)提供的token级别的密集监督。然而,这些方法通常对链式思考(Chain-of-Thought, CoT)序列中的所有token赋予相同的权重,忽略了教师模型预测分布的熵值差异。这意味着模型可能过度关注那些不确定性高的token,从而影响学习效率和最终性能。现有方法的痛点在于未能充分利用教师模型提供的置信度信息,导致训练过程不够精细化。

核心思路:本文的核心思路是利用教师模型预测分布的熵值来指导自蒸馏过程。具体来说,通过引入一个“教师熵置信度门控”,根据教师模型在每个token位置的预测熵值动态调整token的权重。高熵值意味着教师模型在该位置的预测不确定性较高,因此应该降低其权重,避免模型过度拟合噪声。相反,低熵值意味着教师模型在该位置的预测较为可靠,应该给予更高的权重,引导模型学习更准确的知识。这样可以使模型更加关注那些教师模型更有信心的token,从而提高学习效率和泛化能力。

技术框架:整体框架基于On-policy的自蒸馏,主要包含以下几个模块:1) Rollout生成:使用当前模型生成推理轨迹(CoT序列)。2) 教师信号生成:使用教师模型(通常是同一模型,但具有更强的上下文信息)为每个token生成预测分布。3) 熵计算:计算教师模型在每个token位置的预测熵值。4) 权重调整:使用教师熵置信度门控,根据熵值动态调整每个token的权重。5) 损失计算与优化:根据调整后的权重计算损失函数,并使用梯度下降等方法优化模型参数。此外,还引入了CL-EGRSD,通过因果前瞻机制,区分持续高熵和瞬时高熵位置,进一步优化权重调整。

关键创新:最重要的技术创新点在于提出了“教师熵置信度门控”。与现有方法对所有token赋予相同权重不同,该门控能够根据教师模型的预测熵值动态调整token的权重,从而使模型更加关注那些教师模型更有信心的token。此外,CL-EGRSD通过因果前瞻机制,进一步区分了不同类型的高熵位置,提高了权重调整的精度。

关键设计:教师熵置信度门控的关键设计在于如何将熵值转化为token权重。论文中采用了一种基于熵值的缩放函数,将熵值映射到[0, 1]区间内的权重系数。为了避免某些token的权重完全降为零,论文还设置了一个非零下界。损失函数的设计也至关重要,需要综合考虑奖励导向的方向、师生模型之间的似然比幅度,以及调整后的token权重。具体参数设置和损失函数形式在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EGRSD和CL-EGRSD在Qwen3-4B和Qwen3-8B模型上取得了显著的性能提升。具体来说,与现有自蒸馏方法相比,EGRSD和CL-EGRSD在推理准确率和长度的权衡上表现更优,能够在保证准确率的同时,减少推理所需的token数量,从而提高推理效率。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景,例如智能客服、自动问答、代码生成等。通过提高推理效率,可以降低计算成本,并提升用户体验。未来,该方法可以进一步推广到其他类型的LLM和任务中,并与其他优化技术相结合,实现更高效、更智能的AI应用。

📄 摘要(原文)

On-policy self-distillation trains a reasoning model on its own rollouts while a teacher, often the same model conditioned on privileged context, provides dense token-level supervision. Existing objectives typically weight the teacher's token-level signal uniformly across a chain-of-thought sequence, despite substantial variation in the entropy of the teacher's predictive distribution. We propose EGRSD (Entropy-Guided Reinforced Self-Distillation), which unifies token-level updates through three signals: a reward-grounded direction, a teacher-student likelihood-ratio magnitude, and the proposed teacher-entropy confidence gate that down-weights high-entropy token positions while maintaining a nonzero lower bound on every token weight. We further introduce CL-EGRSD, a causal-lookahead variant that distinguishes sustained high-entropy spans from transient high-entropy positions whose following context rapidly becomes low entropy. Experiments with Qwen3-4B and Qwen3-8B in thinking mode show that EGRSD and CL-EGRSD advance the accuracy-length frontier among the compared trainable methods.