SkillFactory: Self-Distillation For Learning Cognitive Behaviors

作者: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett

分类: cs.CL, cs.AI

发布日期: 2025-12-03

💡 一句话要点

SkillFactory：通过自蒸馏学习认知行为，提升模型推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 认知技能 自蒸馏 强化学习 监督微调 推理模型

📋 核心要点

现有模型难以有效利用认知技能（如验证、回溯、重试）进行复杂推理。
SkillFactory通过自蒸馏，利用模型自身生成的样本构建训练数据，引导模型学习认知技能。
实验表明，SkillFactory提升了模型在困难任务上的泛化能力，并增强了模型对领域外任务的鲁棒性。

📝 摘要（中文）

本文提出SkillFactory，一种在强化学习(RL)之前，通过监督微调(SFT)阶段，使模型粗略学习认知技能的方法。该方法不依赖于从更强模型中蒸馏，而是使用模型自身的样本，重新排列以提供技能形式的训练数据。这些“银牌”SFT轨迹可能不完善，但对于在RL期间启动模型以获取技能仍然有效。评估表明，(1)从SkillFactory SFT初始化有助于模型在RL后推广到更难的任务变体，尽管预RL性能较低；(2)模型确实使用了认知技能；(3)经过RL的SkillFactory模型比经过RL的基础模型更不容易在领域外任务上发生回归。这项工作表明，在RL之前学习的归纳偏置有助于模型学习鲁棒的认知技能使用。

🔬 方法详解

问题定义：现有的大语言模型在进行复杂推理时，虽然具备一定的认知能力，例如答案验证、回溯和尝试其他方法等，但往往无法有效地利用这些能力。直接使用强化学习训练模型利用这些能力需要大量的样本和计算资源，并且可能导致模型在领域外任务上表现不佳。因此，如何让模型更好地利用自身已有的认知能力，并在强化学习阶段更有效地学习和应用这些能力，是一个重要的研究问题。

核心思路：SkillFactory的核心思路是通过监督微调（SFT）阶段，预先引导模型学习认知技能。不同于传统的知识蒸馏方法，SkillFactory不依赖于更强大的教师模型，而是利用模型自身生成的样本，通过特定的方式重新排列这些样本，构建出类似于认知技能执行过程的训练数据。这种“自蒸馏”的方式可以有效地利用模型自身的知识，并引导模型学习如何更好地组织和利用这些知识。

技术框架：SkillFactory主要包含两个阶段：监督微调（SFT）阶段和强化学习（RL）阶段。在SFT阶段，首先使用模型生成多个推理轨迹，然后根据不同的认知技能（例如，验证、回溯）对这些轨迹进行重组，生成新的训练数据。例如，对于验证技能，可以将模型生成的答案和验证过程作为训练数据，引导模型学习如何验证自身的答案。在RL阶段，使用标准的强化学习算法（例如，PPO）对模型进行微调，使其能够更好地利用在SFT阶段学习到的认知技能。

关键创新：SkillFactory最重要的创新点在于其“自蒸馏”的思想，即利用模型自身生成的样本来构建训练数据，引导模型学习认知技能。这种方法不需要依赖于更强大的教师模型，可以有效地利用模型自身的知识，并且可以灵活地应用于不同的认知技能。此外，SkillFactory还通过在SFT阶段预先引导模型学习认知技能，从而提高了强化学习的效率和鲁棒性。

关键设计：SkillFactory的关键设计包括：1）如何选择和重组模型生成的样本，以构建有效的训练数据；2）如何设计损失函数，以引导模型学习特定的认知技能；3）如何平衡SFT阶段和RL阶段的训练，以获得最佳的性能。论文中具体使用了交叉熵损失函数进行监督微调，并使用PPO算法进行强化学习。对于不同的认知技能，采用了不同的样本重组策略，例如，对于回溯技能，将模型尝试不同推理路径的过程作为训练数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SkillFactory在多个任务上都取得了显著的性能提升。例如，在某个推理任务上，经过SkillFactory SFT初始化后的模型，在RL阶段能够更好地泛化到更难的任务变体，尽管在预RL阶段的性能较低。此外，实验还证明了模型确实使用了认知技能，并且经过RL的SkillFactory模型比经过RL的基础模型更不容易在领域外任务上发生回归。这些结果表明，SkillFactory可以有效地提高模型的推理能力和鲁棒性。

🎯 应用场景

SkillFactory具有广泛的应用前景，可以应用于各种需要复杂推理和决策的任务中，例如问答系统、对话系统、代码生成等。通过学习认知技能，模型可以更好地理解问题、规划解决方案、验证答案，从而提高任务完成的质量和效率。此外，SkillFactory还可以用于提高模型的鲁棒性和泛化能力，使其能够更好地适应不同的环境和任务。

📄 摘要（原文）

Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理