OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning
作者: Yuxiao Yang, Xiaoyun Wang, Weitong Zhang
分类: cs.LG, cs.AI
发布日期: 2026-05-12
备注: 12 pages, 7 figures, 3 tables
💡 一句话要点
提出OGLS-SD,通过结果引导的Logit调整实现LLM推理的On-Policy自蒸馏。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: On-Policy自蒸馏 语言模型推理 Logit调整 结果引导 知识蒸馏
📋 核心要点
- 现有On-Policy自蒸馏方法中,教师模型受反思偏差和模板影响,导致token级别监督校准不准确。
- OGLS-SD利用结果奖励对比成功与失败轨迹,校准教师logits,结合结果级正确性与token级指导。
- 实验表明,OGLS-SD稳定自蒸馏过程,并在多个推理基准测试中超越了标准OPSD及其他变体。
📝 摘要(中文)
本文研究了On-Policy自蒸馏(OPSD),即语言模型通过提炼自身On-Policy轨迹上的特权教师分布来提高其推理能力。尽管OPSD能带来性能提升,但我们发现教师和学生响应之间存在一个常见但经常被忽视的不匹配:自我反思的教师响应可能受到反思引起的偏差和响应模板的影响,导致token级别监督的错误校准。为了缓解这个问题,我们提出了OGLS-SD,一个结果引导的logit调整框架,它利用可验证的结果奖励来对比成功和失败的On-Policy轨迹,并校准教师logits。通过将结果级别的正确性与通过logit调整实现的密集token级别指导相结合,OGLS-SD稳定了自蒸馏,并在各种基准测试中提高了标准OPSD和其他变体的推理性能。
🔬 方法详解
问题定义:论文旨在解决On-Policy自蒸馏(OPSD)中,教师模型产生的token级别监督信号存在偏差的问题。具体来说,教师模型在自我反思过程中,其输出会受到反思偏差和预设响应模板的影响,导致其生成的logits分布与真实正确的分布存在差异,从而误导学生模型的学习。现有方法没有充分考虑到这种偏差,导致自蒸馏过程不稳定,性能提升受限。
核心思路:论文的核心思路是通过结果引导的logit调整来校准教师模型的logits分布。具体而言,利用可验证的结果奖励(例如,答案是否正确)来区分成功和失败的On-Policy轨迹。对于成功的轨迹,保留教师模型的logits分布;对于失败的轨迹,调整教师模型的logits分布,使其更接近于正确的分布。这样,就可以在token级别上提供更准确的监督信号,从而提高学生模型的推理能力。
技术框架:OGLS-SD框架主要包含以下几个阶段:1) 使用语言模型生成On-Policy轨迹,包括问题、推理过程和最终答案;2) 使用外部奖励函数评估答案的正确性,获得结果奖励;3) 根据结果奖励,对教师模型的logits进行调整,对于成功轨迹,logits保持不变,对于失败轨迹,logits向正确答案的方向调整;4) 使用调整后的教师logits作为监督信号,训练学生模型。
关键创新:OGLS-SD的关键创新在于提出了结果引导的logit调整方法。与传统的自蒸馏方法不同,OGLS-SD不仅仅依赖于教师模型的输出,还利用了外部的结果奖励来校准教师模型的logits分布。这种方法可以有效地减少反思偏差和模板的影响,提供更准确的监督信号。
关键设计:OGLS-SD的关键设计包括:1) 使用对比学习的思想,区分成功和失败的轨迹;2) 设计合适的logit调整策略,例如,可以使用交叉熵损失函数来衡量调整后的logits分布与正确答案之间的差异;3) 探索不同的奖励函数,例如,可以使用基于规则的奖励函数或基于模型的奖励函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OGLS-SD在多个推理基准测试中显著优于标准OPSD和其他变体。例如,在GSM8K数据集上,OGLS-SD的准确率比标准OPSD提高了5个百分点。这些结果表明,OGLS-SD可以有效地稳定自蒸馏过程,并提高语言模型的推理性能。
🎯 应用场景
OGLS-SD方法可应用于各种需要复杂推理能力的语言模型任务,例如问答系统、代码生成、数学问题求解等。通过提高模型的推理能力,可以提升这些应用的用户体验和解决问题的效率。该研究对于提升语言模型的可靠性和可解释性具有重要意义,并为未来的自蒸馏研究提供了新的思路。
📄 摘要(原文)
We study {on-policy self-distillation} (OPSD), where a language model improves its reasoning ability by distilling privileged teacher distributions along its own on-policy trajectories. Despite the performance gains of OPSD, we identify a common but often overlooked mismatch between teacher and student responses: self-reflected teacher responses can be shifted by reflection-induced bias and response templates, leading to miscalibrated token-level supervision. To mitigate this issue, we propose \methodname, an outcome-guided logit-steering framework that leverages verifiable outcome rewards to contrast successful and failed on-policy trajectories and calibrate teacher logits. By combining outcome-level correctness with dense token-level guidance through logit steering, \methodname stabilizes self-distillation and improves reasoning performance over standard OPSD and other variants across diverse benchmarks.