OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
作者: Jaehoon Kim, Dongha Lee
分类: cs.AI, cs.CL
发布日期: 2026-05-07
💡 一句话要点
提出OPSD后训练压缩阶段,通过在RLVR后对推理模型进行蒸馏以缩短响应长度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 推理模型 策略内自我蒸馏 强化学习 思维链 模型压缩 后训练优化
📋 核心要点
- 现有OPSD方法在长思维链推理任务中表现不佳,难以通过事后监督有效提升准确率,反而可能引入冗余。
- 论文提出将OPSD作为RLVR后的压缩阶段,通过仅在正确采样数据上进行蒸馏,实现模型响应的有效压缩。
- 实验证明该流水线在保持数学推理准确率的同时,显著缩短了模型的思维链长度,优化了推理效率。
📝 摘要(中文)
策略内自我蒸馏(OPSD)作为强化学习验证奖励(RLVR)的替代方案,旨在通过基于特权上下文的标记级信用分配来提升准确率并缩短响应。然而,在具备思维链能力的数学推理任务中,该方法的效果并不理想,甚至出现准确率下降。研究假设,在短输出中事后监督能提供更好的替代方案,但在长思维链中,它更容易识别冗余而非提供改进。为验证此假设,作者将OPSD分别应用于正确和错误的采样组。结果表明,在数学推理中,OPSD主要作为压缩机制而非纠错机制:仅在正确采样上训练可保持准确率并显著缩短响应,而在错误采样上训练则会损害准确率。基于此,作者提出了“SFT-RLVR-OPSD”的后训练流水线。
🔬 方法详解
问题定义:论文旨在解决推理模型在经过RLVR训练后,思维链过长且存在冗余的问题。现有OPSD方法在长文本推理中不仅未能提升准确率,反而因错误的信用分配导致性能退化。
核心思路:论文提出将OPSD重新定位为一种“压缩机制”而非“纠错机制”。通过实验发现,在正确采样上进行蒸馏能有效剔除冗余,而在错误采样上进行蒸馏则会引入噪声,因此应将OPSD置于RLVR之后作为后处理步骤。
技术框架:整体流水线采用“SFT -> RLVR -> OPSD”的三阶段范式。首先通过SFT进行基础对齐,接着利用RLVR进行推理能力强化,最后通过OPSD对模型进行压缩,以精简推理过程。
关键创新:核心创新在于揭示了OPSD在不同推理阶段的行为差异,明确了其在长思维链任务中作为压缩工具的适用性,并提出了针对正确采样组进行定向蒸馏的策略。
关键设计:该方法利用特权上下文(Privileged Context)作为教师信号,通过标记级信用分配(Token-level credit assignment)引导模型学习更简洁的推理路径,同时严格限制仅在RLVR验证通过的正确样本上执行蒸馏。
🖼️ 关键图片
📊 实验亮点
实验表明,在数学推理任务中,将OPSD应用于正确采样组可实现显著的响应长度压缩,同时保持模型准确率不变。相比之下,在错误采样组上训练会导致性能显著下降。该研究验证了“SFT-RLVR-OPSD”流水线在平衡推理效率与准确性方面的优越性,为推理模型的后训练优化提供了新范式。
🎯 应用场景
该研究适用于需要长思维链推理的复杂任务,如数学竞赛题求解、逻辑推理及科学计算。通过在后训练阶段引入OPSD压缩,能够显著降低推理延迟和计算成本,使大语言模型在保持高准确率的前提下,更高效地部署于实时推理场景中。
📄 摘要(原文)
On-Policy Self-Distillation (OPSD) has recently emerged as an alternative to Reinforcement Learning with Verifiable Rewards (RLVR), promising higher accuracy and shorter responses through token-level credit assignment from a self-teacher conditioned on privileged context. However, this promise does not carry over to thinking-enabled mathematical reasoning, where reported accuracy gains shrink and sometimes turn negative. We hypothesize that hindsight supervision can specify better token-level alternatives in short thinking-disabled outputs, but in long thinking-enabled traces it more readily identifies redundancy than supplies better replacements. To test this, we applied OPSD separately to correct and incorrect rollout groups, so that compression and correction can be observed in isolation. Our results show that in thinking-enabled mathematical reasoning, OPSD behaves most reliably as a compression mechanism rather than a correction mechanism: training only on correct rollouts preserves accuracy while substantially shortening responses, whereas training only on incorrect rollouts damages accuracy. In light of these findings, we propose a revised post-training pipeline for thinking-enabled mathematical reasoning: SFT then RLVR then OPSD.