Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

作者: Junlong Ke, Zichen Wen, Weijia Li, Conghui He, Linfeng Zhang

分类: cs.AI

发布日期: 2026-05-13

💡 一句话要点

提出EGRSD和CL-EGRSD，通过熵引导的自蒸馏提升LLM推理效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自蒸馏 熵引导 强化学习 推理效率 链式思考 知识蒸馏

📋 核心要点

现有自蒸馏方法在CoT序列中均匀加权token级别的监督信号，忽略了教师模型预测分布中熵的显著变化。
EGRSD通过教师熵置信度门控动态调整token权重，降低高熵token的影响，同时保证所有token都有最小权重。
实验表明，EGRSD及其变体CL-EGRSD在Qwen3系列模型上，提升了推理准确率，并在准确率-长度权衡上优于现有方法。

📝 摘要（中文）

本文提出了一种熵引导的强化自蒸馏方法EGRSD，旨在提升大型语言模型（LLM）的推理效率。EGRSD统一了token级别的更新，利用三个信号：奖励导向的方向、师生模型之间的似然比幅度，以及提出的教师熵置信度门控。该门控降低了高熵token位置的权重，同时保持每个token权重的非零下界。此外，还引入了CL-EGRSD，这是一种因果前瞻变体，区分了持续高熵跨度和瞬时高熵位置。在Qwen3-4B和Qwen3-8B的思维模式实验表明，EGRSD和CL-EGRSD在可训练方法中提高了准确率-长度边界。

🔬 方法详解

问题定义：现有基于On-policy的自蒸馏方法在训练推理模型时，通常采用教师模型（通常是同一模型，但具有特权上下文）提供的token级别的密集监督。然而，这些方法通常对链式思考（Chain-of-Thought, CoT）序列中的所有token赋予相同的权重，忽略了教师模型预测分布的熵值差异。这意味着模型可能过度关注那些不确定性高的token，从而影响学习效率和最终性能。现有方法的痛点在于未能充分利用教师模型提供的置信度信息，导致训练过程不够精细化。

核心思路：本文的核心思路是利用教师模型预测分布的熵值来指导自蒸馏过程。具体来说，通过引入一个“教师熵置信度门控”，根据教师模型在每个token位置的预测熵值动态调整token的权重。高熵值意味着教师模型在该位置的预测不确定性较高，因此应该降低其权重，避免模型过度拟合噪声。相反，低熵值意味着教师模型在该位置的预测较为可靠，应该给予更高的权重，引导模型学习更准确的知识。这样可以使模型更加关注那些教师模型更有信心的token，从而提高学习效率和泛化能力。

技术框架：整体框架基于On-policy的自蒸馏，主要包含以下几个模块：1) Rollout生成：使用当前模型生成推理轨迹（CoT序列）。2) 教师信号生成：使用教师模型（通常是同一模型，但具有更强的上下文信息）为每个token生成预测分布。3) 熵计算：计算教师模型在每个token位置的预测熵值。4) 权重调整：使用教师熵置信度门控，根据熵值动态调整每个token的权重。5) 损失计算与优化：根据调整后的权重计算损失函数，并使用梯度下降等方法优化模型参数。此外，还引入了CL-EGRSD，通过因果前瞻机制，区分持续高熵和瞬时高熵位置，进一步优化权重调整。

关键创新：最重要的技术创新点在于提出了“教师熵置信度门控”。与现有方法对所有token赋予相同权重不同，该门控能够根据教师模型的预测熵值动态调整token的权重，从而使模型更加关注那些教师模型更有信心的token。此外，CL-EGRSD通过因果前瞻机制，进一步区分了不同类型的高熵位置，提高了权重调整的精度。

关键设计：教师熵置信度门控的关键设计在于如何将熵值转化为token权重。论文中采用了一种基于熵值的缩放函数，将熵值映射到[0, 1]区间内的权重系数。为了避免某些token的权重完全降为零，论文还设置了一个非零下界。损失函数的设计也至关重要，需要综合考虑奖励导向的方向、师生模型之间的似然比幅度，以及调整后的token权重。具体参数设置和损失函数形式在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EGRSD和CL-EGRSD在Qwen3-4B和Qwen3-8B模型上取得了显著的性能提升。具体来说，与现有自蒸馏方法相比，EGRSD和CL-EGRSD在推理准确率和长度的权衡上表现更优，能够在保证准确率的同时，减少推理所需的token数量，从而提高推理效率。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景，例如智能客服、自动问答、代码生成等。通过提高推理效率，可以降低计算成本，并提升用户体验。未来，该方法可以进一步推广到其他类型的LLM和任务中，并与其他优化技术相结合，实现更高效、更智能的AI应用。

📄 摘要（原文）

On-policy self-distillation trains a reasoning model on its own rollouts while a teacher, often the same model conditioned on privileged context, provides dense token-level supervision. Existing objectives typically weight the teacher's token-level signal uniformly across a chain-of-thought sequence, despite substantial variation in the entropy of the teacher's predictive distribution. We propose EGRSD (Entropy-Guided Reinforced Self-Distillation), which unifies token-level updates through three signals: a reward-grounded direction, a teacher-student likelihood-ratio magnitude, and the proposed teacher-entropy confidence gate that down-weights high-entropy token positions while maintaining a nonzero lower bound on every token weight. We further introduce CL-EGRSD, a causal-lookahead variant that distinguishes sustained high-entropy spans from transient high-entropy positions whose following context rapidly becomes low entropy. Experiments with Qwen3-4B and Qwen3-8B in thinking mode show that EGRSD and CL-EGRSD advance the accuracy-length frontier among the compared trainable methods.

Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理