Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning
作者: Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang
分类: cs.LG, cs.AI
发布日期: 2026-05-08
备注: 17 pages, 8 figures
💡 一句话要点
提出Prune-OPD框架,通过动态截断与奖励加权优化长程推理任务中的在线策略蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线策略蒸馏 长程推理 大语言模型 计算效率优化 强化学习 模型训练
📋 核心要点
- 长程推理中,学生模型生成的序列前缀易偏离教师路径,导致稠密奖励失效并产生大量无效计算。
- Prune-OPD通过实时监测学生与教师预测的局部兼容性,动态调整奖励权重并触发滚动截断。
- 该方法在AMC、AIME等复杂基准上显著提升了训练效率,训练时间缩短最高达68%,且性能表现优异。
📝 摘要(中文)
在线策略蒸馏(OPD)利用稠密教师奖励提升推理模型性能。然而,在长程任务中,学生模型生成的序列前缀不可避免地会偏离教师的思维路径,导致教师奖励失去局部可利用性。在这些“漂移”轨迹上继续生成和评估不仅降低了奖励质量,还造成了巨大的计算浪费。为此,本文提出了Prune-OPD框架,旨在将训练预算与监督质量动态对齐。通过实时监测学生与教师预测之间的局部兼容性(如Top-k重叠),Prune-OPD能实时检测前缀漂移。一旦检测到严重漂移,系统会单调降低后续不可靠奖励的权重,并触发动态滚动截断。这使得训练过程能够停止无效生成,并将计算资源集中于可靠的教师监督。实验表明,Prune-OPD在保持甚至提升AMC、AIME等基准测试性能的同时,训练时间减少了37.6%至68.0%。
🔬 方法详解
问题定义:在长程推理任务的在线策略蒸馏(OPD)中,随着生成长度增加,学生模型产生的序列前缀往往会偏离教师模型的思维路径(Prefix-drift)。此时,教师提供的稠密奖励不再具备局部可利用性,继续计算不仅无法提供有效监督,反而会引入噪声并浪费算力。
核心思路:核心思想是将计算资源与监督质量进行动态对齐。通过实时评估学生与教师在局部预测上的兼容性,当检测到漂移时,主动停止无效的推理路径,从而避免在低质量数据上进行无意义的梯度更新。
技术框架:Prune-OPD包含三个核心模块:首先是兼容性监测器,利用Top-k重叠等指标实时量化学生与教师的预测差异;其次是奖励加权机制,根据监测结果对后续奖励进行单调递减加权;最后是动态滚动截断模块,在检测到严重漂移时直接终止当前序列的生成与评估。
关键创新:与传统固定长度或盲目截断的方法不同,Prune-OPD实现了基于监督质量的自适应计算分配。它不仅能剔除无效计算,还能在兼容性高时自动延长训练窗口,从而最大化长程监督的利用效率。
关键设计:该方法引入了基于局部兼容性得分的动态阈值策略,通过对奖励序列进行加权处理,确保模型仅在教师监督可靠的区间内进行有效学习,同时通过实时监测机制保证了训练过程的鲁棒性与计算效率的平衡。
🖼️ 关键图片
📊 实验亮点
Prune-OPD在AMC、AIME和HMMT等极具挑战性的数学推理基准上表现卓越。实验数据显示,在处理长程任务时,该方法在保持或提升模型推理精度的前提下,训练时间显著缩短了37.6%至68.0%。相比于传统的固定长度蒸馏,Prune-OPD通过动态计算分配,实现了训练效率与模型性能的帕累托最优。
🎯 应用场景
该研究主要应用于大语言模型的推理能力增强,特别是在数学竞赛(如AIME、AMC)、复杂逻辑推理及长程规划任务中。其高效的蒸馏策略可显著降低高性能推理模型的训练成本,为资源受限环境下的模型微调提供了一种高效且可靠的优化路径,具有广泛的工业应用价值。
📄 摘要(原文)
On-policy distillation (OPD) leverages dense teacher rewards to enhance reasoning models. However, scaling OPD to long-horizon tasks exposes a critical flaw: as the student's generated prefix inevitably diverges from the teacher's thought process, the teacher's dense reward loses local exploitability. Continuing to generate and evaluate tokens on these ``drifted'' trajectories not only degrades reward quality but also incurs massive computational waste. To address this, we introduce \textbf{Prune-OPD}, a framework that dynamically aligns training budgets with supervision quality. By continuously monitoring the local compatibility between student and teacher predictions (e.g., via top-$k$ overlap), Prune-OPD detects prefix-drift events in real time. Upon detecting severe drift, it monotonically down-weights subsequent unreliable rewards and triggers dynamic rollout truncation. This allows the training process to halt futile generation and reallocate compute strictly to reliable teacher supervision. Across diverse teacher-student combinations, Prune-OPD consistently aligns computation with supervision reliability. When prefix drift makes dense teacher rewards unreliable, it reduces training time by 37.6\%--68.0\% while preserving, and often improving, performance on challenging benchmarks (AMC, AIME, HMMT). When student-teacher compatibility remains high, it automatically preserves long-context supervision by expanding the training window. These results suggest that Prune-OPD improves OPD not by blindly shortening rollouts, but by reallocating computation toward locally exploitable teacher rewards.