Student-in-the-Loop Chain-of-Thought Distillation via Generation-Time Selection
作者: Chaoqun He, Yingfa Chen, Chaojun Xiao, Xu Han, Lijie Wen
分类: cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出Gen-SSD,通过生成时选择进行学生模型思维链蒸馏,提升数学推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 思维链 生成时选择 学生模型 数学推理
📋 核心要点
- 现有思维链蒸馏方法依赖事后过滤,无法控制生成过程,导致学生模型难以学习。
- Gen-SSD框架在教师模型生成过程中引入学生模型评估,引导生成更易学习的推理路径。
- 实验表明,Gen-SSD在数学推理任务上显著优于标准知识蒸馏和其他基线方法。
📝 摘要(中文)
大型推理模型通过长思维链(CoT)轨迹在复杂任务上表现出色,但将这种推理过程直接迁移到较小模型仍然具有挑战性。一个关键的困难是,并非所有教师模型生成的推理轨迹都适合学生模型学习。现有方法通常依赖于事后过滤,即在完全生成后基于启发式标准选择轨迹。然而,这些方法无法控制生成过程本身,并且可能仍然产生超出学生学习能力的推理路径。为了解决这个限制,我们提出了Gen-SSD(生成时自选择蒸馏),这是一个学生参与的框架,执行生成时选择。学生模型不是被动地消耗完整的轨迹,而是在教师模型采样过程中评估候选延续,引导仅可学习的推理路径的扩展,并实现对无益分支的早期修剪。在数学推理基准上的实验表明,Gen-SSD始终优于标准知识蒸馏和最近的基线,比标准KD提高了约5.9个点,比其他基线提高了高达4.7个点。进一步的分析表明,Gen-SSD产生更稳定和可学习的推理轨迹,突出了在生成过程中结合监督对于有效蒸馏的重要性。
🔬 方法详解
问题定义:现有思维链蒸馏方法主要依赖于教师模型生成完整的推理轨迹后,再通过一些启发式规则对轨迹进行筛选,选择适合学生模型学习的轨迹。这种事后过滤的方式无法控制教师模型的生成过程,可能导致生成一些学生模型难以理解或学习的推理路径,从而影响蒸馏效果。现有方法的痛点在于缺乏学生模型在生成过程中的参与,无法根据学生模型的学习能力来引导教师模型生成更合适的推理轨迹。
核心思路:Gen-SSD的核心思路是在教师模型生成推理轨迹的过程中,引入学生模型的评估,让学生模型参与到轨迹的生成过程中。具体来说,在教师模型生成每个推理步骤时,会生成多个候选的下一步推理步骤,然后学生模型对这些候选步骤进行评估,选择学生模型认为最容易学习的步骤,并引导教师模型沿着这个步骤继续生成。这样可以确保生成的推理轨迹是学生模型可以理解和学习的,从而提高蒸馏效果。
技术框架:Gen-SSD框架包含教师模型和学生模型两个主要部分。教师模型负责生成推理轨迹,学生模型负责评估候选的推理步骤。在每个推理步骤,教师模型首先生成多个候选的下一步推理步骤。然后,学生模型对这些候选步骤进行评估,评估的标准可以是学生模型预测的正确率或置信度等。根据学生模型的评估结果,选择一个或多个候选步骤,并引导教师模型沿着这些步骤继续生成。这个过程会一直重复,直到生成完整的推理轨迹。
关键创新:Gen-SSD最重要的技术创新点在于引入了学生模型在生成过程中的参与,实现了生成时选择。与现有方法的事后过滤不同,Gen-SSD可以在生成过程中根据学生模型的学习能力来引导教师模型生成更合适的推理轨迹。这种生成时选择的方式可以有效地提高蒸馏效果,并生成更稳定和可学习的推理轨迹。
关键设计:Gen-SSD的关键设计包括:1) 如何生成候选的推理步骤:可以使用不同的采样策略,例如top-k采样或nucleus采样。2) 如何评估候选的推理步骤:可以使用学生模型的预测正确率或置信度等作为评估标准。3) 如何选择候选的推理步骤:可以使用不同的选择策略,例如选择学生模型认为最容易学习的步骤,或者选择多个步骤并进行加权平均。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gen-SSD在数学推理基准上显著优于标准知识蒸馏和最近的基线方法。具体来说,Gen-SSD比标准KD提高了约5.9个点,比其他基线提高了高达4.7个点。这些结果表明,在生成过程中结合监督对于有效蒸馏至关重要,Gen-SSD能够生成更稳定和可学习的推理轨迹。
🎯 应用场景
Gen-SSD方法可应用于各种需要知识蒸馏的场景,尤其是在推理能力要求较高的任务中,例如数学问题求解、代码生成、自然语言推理等。该方法可以有效地将大型推理模型的知识迁移到小型模型,从而在资源受限的设备上部署高性能的推理模型,具有广泛的应用前景。
📄 摘要(原文)
Large reasoning models achieve strong performance on complex tasks through long chain-of-thought (CoT) trajectories, but directly transferring such reasoning processes to smaller models remains challenging. A key difficulty is that not all teacher-generated reasoning trajectories are suitable for student learning. Existing approaches typically rely on post-hoc filtering, selecting trajectories after full generation based on heuristic criteria. However, such methods cannot control the generation process itself and may still produce reasoning paths that lie outside the student's learning capacity. To address this limitation, we propose Gen-SSD (Generation-time Self-Selection Distillation), a student-in-the-loop framework that performs generation-time selection. Instead of passively consuming complete trajectories, the student evaluates candidate continuations during the teacher's sampling process, guiding the expansion of only learnable reasoning paths and enabling early pruning of unhelpful branches. Experiments on mathematical reasoning benchmarks demonstrate that Gen-SSD consistently outperforms standard knowledge distillation and recent baselines, with improvements of around 5.9 points over Standard KD and up to 4.7 points over other baselines. Further analysis shows that Gen-SSD produces more stable and learnable reasoning trajectories, highlighting the importance of incorporating supervision during generation for effective distillation.