Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

作者: Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang

分类: cs.LG, cs.AI

发布日期: 2026-05-08

备注: 17 pages, 8 figures

💡 一句话要点

提出Prune-OPD框架，通过动态截断与奖励加权优化长程推理任务中的在线策略蒸馏

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 在线策略蒸馏 长程推理 大语言模型 计算效率优化 强化学习 模型训练

📋 核心要点

长程推理中，学生模型生成的序列前缀易偏离教师路径，导致稠密奖励失效并产生大量无效计算。
Prune-OPD通过实时监测学生与教师预测的局部兼容性，动态调整奖励权重并触发滚动截断。
该方法在AMC、AIME等复杂基准上显著提升了训练效率，训练时间缩短最高达68%，且性能表现优异。

📝 摘要（中文）

在线策略蒸馏（OPD）利用稠密教师奖励提升推理模型性能。然而，在长程任务中，学生模型生成的序列前缀不可避免地会偏离教师的思维路径，导致教师奖励失去局部可利用性。在这些“漂移”轨迹上继续生成和评估不仅降低了奖励质量，还造成了巨大的计算浪费。为此，本文提出了Prune-OPD框架，旨在将训练预算与监督质量动态对齐。通过实时监测学生与教师预测之间的局部兼容性（如Top-k重叠），Prune-OPD能实时检测前缀漂移。一旦检测到严重漂移，系统会单调降低后续不可靠奖励的权重，并触发动态滚动截断。这使得训练过程能够停止无效生成，并将计算资源集中于可靠的教师监督。实验表明，Prune-OPD在保持甚至提升AMC、AIME等基准测试性能的同时，训练时间减少了37.6%至68.0%。

🔬 方法详解

问题定义：在长程推理任务的在线策略蒸馏（OPD）中，随着生成长度增加，学生模型产生的序列前缀往往会偏离教师模型的思维路径（Prefix-drift）。此时，教师提供的稠密奖励不再具备局部可利用性，继续计算不仅无法提供有效监督，反而会引入噪声并浪费算力。

核心思路：核心思想是将计算资源与监督质量进行动态对齐。通过实时评估学生与教师在局部预测上的兼容性，当检测到漂移时，主动停止无效的推理路径，从而避免在低质量数据上进行无意义的梯度更新。

技术框架：Prune-OPD包含三个核心模块：首先是兼容性监测器，利用Top-k重叠等指标实时量化学生与教师的预测差异；其次是奖励加权机制，根据监测结果对后续奖励进行单调递减加权；最后是动态滚动截断模块，在检测到严重漂移时直接终止当前序列的生成与评估。

关键创新：与传统固定长度或盲目截断的方法不同，Prune-OPD实现了基于监督质量的自适应计算分配。它不仅能剔除无效计算，还能在兼容性高时自动延长训练窗口，从而最大化长程监督的利用效率。

关键设计：该方法引入了基于局部兼容性得分的动态阈值策略，通过对奖励序列进行加权处理，确保模型仅在教师监督可靠的区间内进行有效学习，同时通过实时监测机制保证了训练过程的鲁棒性与计算效率的平衡。

🖼️ 关键图片

📊 实验亮点

Prune-OPD在AMC、AIME和HMMT等极具挑战性的数学推理基准上表现卓越。实验数据显示，在处理长程任务时，该方法在保持或提升模型推理精度的前提下，训练时间显著缩短了37.6%至68.0%。相比于传统的固定长度蒸馏，Prune-OPD通过动态计算分配，实现了训练效率与模型性能的帕累托最优。

🎯 应用场景

该研究主要应用于大语言模型的推理能力增强，特别是在数学竞赛（如AIME、AMC）、复杂逻辑推理及长程规划任务中。其高效的蒸馏策略可显著降低高性能推理模型的训练成本，为资源受限环境下的模型微调提供了一种高效且可靠的优化路径，具有广泛的工业应用价值。

📄 摘要（原文）

On-policy distillation (OPD) leverages dense teacher rewards to enhance reasoning models. However, scaling OPD to long-horizon tasks exposes a critical flaw: as the student's generated prefix inevitably diverges from the teacher's thought process, the teacher's dense reward loses local exploitability. Continuing to generate and evaluate tokens on these ``drifted'' trajectories not only degrades reward quality but also incurs massive computational waste. To address this, we introduce \textbf{Prune-OPD}, a framework that dynamically aligns training budgets with supervision quality. By continuously monitoring the local compatibility between student and teacher predictions (e.g., via top-$k$ overlap), Prune-OPD detects prefix-drift events in real time. Upon detecting severe drift, it monotonically down-weights subsequent unreliable rewards and triggers dynamic rollout truncation. This allows the training process to halt futile generation and reallocate compute strictly to reliable teacher supervision. Across diverse teacher-student combinations, Prune-OPD consistently aligns computation with supervision reliability. When prefix drift makes dense teacher rewards unreliable, it reduces training time by 37.6\%--68.0\% while preserving, and often improving, performance on challenging benchmarks (AMC, AIME, HMMT). When student-teacher compatibility remains high, it automatically preserves long-context supervision by expanding the training window. These results suggest that Prune-OPD improves OPD not by blindly shortening rollouts, but by reallocating computation toward locally exploitable teacher rewards.

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理