ROSD: Reflective On-Policy Self-Distillation for Language Model Reasoning across Domains
作者: Ziqi Zhao, Xinyu Ma, Liu Yang, Yujie Feng, Daiting Shi, Jingzhou He, Xin Xin, Zhaochun Ren, Xiao-Ming Wu
分类: cs.CL, cs.LG
发布日期: 2026-05-27
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
ROSD:反射式On-Policy自蒸馏提升语言模型跨领域推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 推理 自蒸馏 On-policy学习 领域泛化
📋 核心要点
- 现有On-policy自蒸馏方法在领域内推理提升有限,且领域外泛化能力差,主要原因是模仿训练数据和易过拟合。
- ROSD通过自反射器提取纠正性想法并定位错误,引导自教师进行针对性监督,限制蒸馏范围,纠正推理缺陷。
- 实验表明,ROSD在领域内推理性能更强,领域外泛化能力显著优于标准OPSD方法。
📝 摘要(中文)
On-policy自蒸馏(OPSD)通过为on-policy rollout提供密集的token级别监督来提高大型语言模型(LLM)的推理性能。然而,现有的OPSD方法通常在领域内推理方面收益有限,并且在领域外问题上的泛化能力较差。我们发现了两个关键原因:将自教师建立在已验证的解决方案之上会鼓励模仿训练领域的参考轨迹,而不是针对特定错误的纠正;将蒸馏应用于完整的响应可能会覆盖有效的推理前缀并加强过拟合。我们提出了反射式On-policy自蒸馏(ROSD),该框架通过反射引导的、错误定位的蒸馏,将参考解决方案的模仿转变为有针对性的推理纠正。对于每个rollout,ROSD使用自反射器提取纠正性想法并定位第一个错误跨度。纠正性想法引导自教师进行有针对性的监督,而定位的错误跨度将蒸馏限制在需要纠正的地方。这种设计纠正了有缺陷的推理,同时保留了有效的前缀。在多个领域内和领域外推理基准上的实验表明,ROSD总体上产生了更强的领域内推理性能,并且比标准OPSD具有明显更好的领域外泛化能力。
🔬 方法详解
问题定义:现有On-policy自蒸馏(OPSD)方法在提升大型语言模型(LLM)的推理能力时,存在两个主要问题。一是过度依赖训练数据的参考答案,导致模型倾向于模仿训练数据中的轨迹,而忽略了对推理过程中出现的特定错误的纠正。二是将蒸馏应用于整个响应序列,可能覆盖模型已经生成的正确推理前缀,并加剧过拟合现象,使得模型在未见过的数据上表现不佳。
核心思路:ROSD的核心思路是将模仿学习转变为有针对性的推理纠正。它引入了一个“自反射器”,用于分析模型的推理过程,识别并定位错误,然后引导自教师(self-teacher)针对这些错误进行监督。通过这种方式,ROSD不再是简单地模仿参考答案,而是专注于纠正模型推理过程中的具体错误,从而提高模型的泛化能力。
技术框架:ROSD框架主要包含以下几个关键模块: 1. On-policy Rollout:使用LLM生成推理轨迹。 2. Self-Reflector:分析推理轨迹,提取纠正性想法,并定位第一个错误跨度。 3. Self-Teacher:根据纠正性想法,生成针对特定错误的监督信号。 4. Distillation:仅在错误跨度内进行蒸馏,纠正错误推理,同时保留有效的前缀。 整个流程通过迭代进行,不断优化LLM的推理能力。
关键创新:ROSD的关键创新在于引入了“反射”机制,使得模型能够自我反思,识别并纠正推理过程中的错误。与传统的OPSD方法相比,ROSD不再是简单地模仿参考答案,而是专注于纠正模型推理过程中的具体错误。这种反射机制使得模型能够更好地泛化到未见过的数据上。此外,ROSD通过错误定位,限制了蒸馏的范围,避免了覆盖有效推理前缀的问题。
关键设计:ROSD的关键设计包括: 1. 自反射器的设计:自反射器需要能够准确地识别推理过程中的错误,并提取出有效的纠正性想法。具体实现可能涉及使用另一个LLM或者专门训练的模型。 2. 错误定位策略:ROSD需要准确地定位第一个错误跨度,以避免对正确推理过程的干扰。这可能需要使用一些启发式规则或者训练专门的错误定位模型。 3. 蒸馏损失函数:ROSD需要设计合适的蒸馏损失函数,以确保自教师能够有效地指导学生模型纠正错误。
🖼️ 关键图片
📊 实验亮点
ROSD在多个领域内和领域外推理基准上进行了评估,实验结果表明,ROSD总体上产生了更强的领域内推理性能,并且比标准OPSD具有明显更好的领域外泛化能力。具体性能提升数据在论文中给出,证明了ROSD的有效性。
🎯 应用场景
ROSD具有广泛的应用前景,可用于提升各种需要复杂推理能力的语言模型,例如问答系统、对话系统、代码生成等。通过提高模型的推理准确性和泛化能力,ROSD可以显著改善这些应用的用户体验,并拓展其应用范围。此外,ROSD的反射机制也可以应用于其他机器学习任务,例如机器人控制和决策制定。
📄 摘要(原文)
On-policy self-distillation (OPSD) improves the reasoning performance of large language models (LLMs) by providing dense token-level supervision for on-policy rollouts. However, existing OPSD methods often yield limited gains on in-domain reasoning and generalize poorly to out-of-domain problems. We identify two key causes: conditioning the self-teacher on a verified solution encourages imitation of training-domain reference trajectories rather than error-specific correction, and applying distillation to the full response can overwrite valid reasoning prefixes and reinforce overfitting. We propose Reflective On-policy Self-Distillation (ROSD), a framework that turns reference-solution imitation into targeted reasoning correction through reflection-guided, error-localized distillation. For each rollout, ROSD uses a self-reflector to extract a corrective idea and locate the first erroneous span. The corrective idea guides the self-teacher toward targeted supervision, while the localized error span restricts distillation to where correction is needed. This design corrects flawed reasoning while preserving valid prefixes. Experiments on multiple in-domain and out-of-domain reasoning benchmarks show that ROSD yields stronger in-domain reasoning performance overall and substantially better out-of-domain generalization than standard OPSD. Code is available at https://github.com/ZiqiZhao1/ROSD.