Skill-Conditioned Gated Self-Distillation for LLM Reasoning

作者: Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

分类: cs.CL, cs.AI

发布日期: 2026-05-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出技能条件门控自蒸馏以提升大模型推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自蒸馏 大语言模型 推理能力 技能库 多教师机制

📋 核心要点

现有的自蒸馏方法通常依赖于可信的教师信息，如参考答案或成功的轨迹，这限制了其适用性。
SGSD通过将技能条件自蒸馏视为教师假设验证，利用技能库中的信息来提供更灵活的监督信号。
在多个数学推理基准上，SGSD在性能上超越了GRPO，并在较弱的教师信息假设下仍表现出色。

📝 摘要（中文）

本论文提出了一种名为技能条件门控自蒸馏（SGSD）的方法，通过利用经验派生的技能库来改善大语言模型（LLM）的推理能力。与传统方法依赖于可信的教师信息不同，SGSD将技能基础的自蒸馏视为教师假设验证，而非无条件模仿。该方法通过构建多教师池，利用技能-错误对来评分，进而提炼出有用的教师-学生不一致信息。实验结果表明，SGSD在多个数学推理基准上表现优异，超越了现有的GRPO方法，并在较弱的教师信息假设下仍保持竞争力。

🔬 方法详解

问题定义：本论文旨在解决现有自蒸馏方法对可信教师信息的依赖问题，尤其是在信息稀疏的情况下，如何有效利用技能库中的信息进行推理提升。

核心思路：SGSD的核心思想是将技能基础的自蒸馏视为教师假设验证，而非简单的模仿。通过这种方式，模型可以从多样化的技能中获取有用的反馈，而不是仅依赖于单一的参考答案。

技术框架：SGSD的整体架构包括技能检索、构建多教师池和验证教师的支持或抑制态度。首先，从技能库中检索技能-错误对，然后让所有技能条件教师对同一学生输出进行评分，最后通过验证教师的态度来提供监督信号。

关键创新：SGSD的主要创新在于引入了技能条件的多教师评分机制，允许模型在面对不确定或极端信号时进行更为稳健的学习。这种方法与传统的自蒸馏方法本质上不同，因为它不再依赖于单一的教师信息。

关键设计：在SGSD中，设计了一个稳健的门控目标，以提炼有用的教师-学生不一致信息，同时抑制不确定或极端的信号。此外，损失函数的设计也考虑了教师的支持和抑制态度，以确保模型能够有效学习。

🖼️ 关键图片

📊 实验亮点

在多个数学推理基准上，SGSD在Qwen3-1.7B模型上平均超越GRPO 6.2%和OPSD 1.7%。这些结果表明SGSD在较弱的教师信息假设下仍能保持竞争力，展示了其在推理任务中的有效性。

🎯 应用场景

该研究的潜在应用领域包括教育技术、智能问答系统和自动化推理工具。通过提升大语言模型的推理能力，SGSD可以在复杂问题解决、个性化学习和智能助手等场景中发挥重要作用，未来可能对人机交互和知识获取方式产生深远影响。

📄 摘要（原文）

On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes into dense token-level supervision. Existing methods usually assume trusted PI, such as reference answers or successful traces. We ask whether PI can instead come from an experience-derived skill bank, where retrieved skills are compact and reusable but may also be irrelevant or misleading. We propose Skill-Conditioned Gated Self-Distillation (SGSD), which formulates skill-based SD as teacher hypothesis validation rather than unconditional imitation. SGSD retrieves skill-mistake pairs, constructs a multi-teacher pool, and lets all skill-conditioned teachers score the same plain-prompt student rollout. The verifier validates each teacher's polarity: supporting a success or suppressing a failure gives positive supervision, while the opposite stance is reversed. A robust gated objective then distills informative teacher-student disagreements while suppressing uncertain or extreme signals. Experiments on multiple mathematical reasoning benchmarks show that SGSD consistently improves over GRPO and remains competitive with answer-conditioned OPSD under a weaker PI assumption. For example, on Qwen3-1.7B, SGSD outperforms GRPO by 6.2% and OPSD by 1.7% on average on AIME24, AIME25, and HMMT25. Our code is available at https://github.com/walawalagoose/SGSD.

Skill-Conditioned Gated Self-Distillation for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理