Skill-Conditioned Gated Self-Distillation for LLM Reasoning

📄 arXiv: 2605.28791v1 📥 PDF

作者: Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

分类: cs.CL, cs.AI

发布日期: 2026-05-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出技能条件门控自蒸馏以提升大模型推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自蒸馏 大语言模型 推理能力 技能库 多教师机制

📋 核心要点

  1. 现有的自蒸馏方法通常依赖于可信的教师信息,如参考答案或成功的轨迹,这限制了其适用性。
  2. SGSD通过将技能条件自蒸馏视为教师假设验证,利用技能库中的信息来提供更灵活的监督信号。
  3. 在多个数学推理基准上,SGSD在性能上超越了GRPO,并在较弱的教师信息假设下仍表现出色。

📝 摘要(中文)

本论文提出了一种名为技能条件门控自蒸馏(SGSD)的方法,通过利用经验派生的技能库来改善大语言模型(LLM)的推理能力。与传统方法依赖于可信的教师信息不同,SGSD将技能基础的自蒸馏视为教师假设验证,而非无条件模仿。该方法通过构建多教师池,利用技能-错误对来评分,进而提炼出有用的教师-学生不一致信息。实验结果表明,SGSD在多个数学推理基准上表现优异,超越了现有的GRPO方法,并在较弱的教师信息假设下仍保持竞争力。

🔬 方法详解

问题定义:本论文旨在解决现有自蒸馏方法对可信教师信息的依赖问题,尤其是在信息稀疏的情况下,如何有效利用技能库中的信息进行推理提升。

核心思路:SGSD的核心思想是将技能基础的自蒸馏视为教师假设验证,而非简单的模仿。通过这种方式,模型可以从多样化的技能中获取有用的反馈,而不是仅依赖于单一的参考答案。

技术框架:SGSD的整体架构包括技能检索、构建多教师池和验证教师的支持或抑制态度。首先,从技能库中检索技能-错误对,然后让所有技能条件教师对同一学生输出进行评分,最后通过验证教师的态度来提供监督信号。

关键创新:SGSD的主要创新在于引入了技能条件的多教师评分机制,允许模型在面对不确定或极端信号时进行更为稳健的学习。这种方法与传统的自蒸馏方法本质上不同,因为它不再依赖于单一的教师信息。

关键设计:在SGSD中,设计了一个稳健的门控目标,以提炼有用的教师-学生不一致信息,同时抑制不确定或极端的信号。此外,损失函数的设计也考虑了教师的支持和抑制态度,以确保模型能够有效学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个数学推理基准上,SGSD在Qwen3-1.7B模型上平均超越GRPO 6.2%和OPSD 1.7%。这些结果表明SGSD在较弱的教师信息假设下仍能保持竞争力,展示了其在推理任务中的有效性。

🎯 应用场景

该研究的潜在应用领域包括教育技术、智能问答系统和自动化推理工具。通过提升大语言模型的推理能力,SGSD可以在复杂问题解决、个性化学习和智能助手等场景中发挥重要作用,未来可能对人机交互和知识获取方式产生深远影响。

📄 摘要(原文)

On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes into dense token-level supervision. Existing methods usually assume trusted PI, such as reference answers or successful traces. We ask whether PI can instead come from an experience-derived skill bank, where retrieved skills are compact and reusable but may also be irrelevant or misleading. We propose Skill-Conditioned Gated Self-Distillation (SGSD), which formulates skill-based SD as teacher hypothesis validation rather than unconditional imitation. SGSD retrieves skill-mistake pairs, constructs a multi-teacher pool, and lets all skill-conditioned teachers score the same plain-prompt student rollout. The verifier validates each teacher's polarity: supporting a success or suppressing a failure gives positive supervision, while the opposite stance is reversed. A robust gated objective then distills informative teacher-student disagreements while suppressing uncertain or extreme signals. Experiments on multiple mathematical reasoning benchmarks show that SGSD consistently improves over GRPO and remains competitive with answer-conditioned OPSD under a weaker PI assumption. For example, on Qwen3-1.7B, SGSD outperforms GRPO by 6.2% and OPSD by 1.7% on average on AIME24, AIME25, and HMMT25. Our code is available at https://github.com/walawalagoose/SGSD.