ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation

📄 arXiv: 2605.28396v1 📥 PDF

作者: Kun Liang, Chenming Tang, Clive Bai, Weijie Liu, Saiyong Yang, Yunfang Wu

分类: cs.LG, cs.AI

发布日期: 2026-05-27


💡 一句话要点

提出ADWIN框架以优化在政策蒸馏中的监督效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自适应窗口 在政策蒸馏 监督效率 短前缀训练 全回合探测 计算成本优化 模型准确性 智能系统

📋 核心要点

  1. 现有的在政策蒸馏方法依赖全回合训练,导致计算成本高且监督效率低。
  2. ADWIN框架通过自适应调整回合长度,结合短前缀训练与全回合探测,优化了监督过程。
  3. 实验结果显示,ADWIN在多种任务设置下,训练成本降低至4.1倍,同时保持或提升了模型准确性。

📝 摘要(中文)

在政策蒸馏(OPD)中,通过学生生成的轨迹训练学生模型以获取教师反馈,但标准的全回合训练方法会导致高昂的计算成本,并且可能在低边际价值的后期位置过度分配监督。本文重新审视了这一假设,提出了ADWIN,一个自适应窗口框架,允许在线决策回合长度,利用短的教师锚定前缀进行训练,同时使用延迟的全回合探测来审计前缀与全回合的一致性,并适应下一个监督时限。实验表明,ADWIN在数学和代码推理基准测试中显著提高了准确性与计算的权衡,减少了端到端训练成本,最高可达4.1倍,同时实现了相当或更好的准确性。

🔬 方法详解

问题定义:本文旨在解决在政策蒸馏中,标准全回合训练方法导致的高计算成本和低效监督问题。现有方法在后期位置可能过度分配监督,影响学生模型的学习效率。

核心思路:ADWIN框架的核心思想是通过自适应调整回合长度,利用短的教师锚定前缀进行训练,同时结合延迟的全回合探测来审计前缀与全回合的一致性,从而优化监督过程。

技术框架:ADWIN的整体架构包括两个主要模块:短前缀训练模块和全回合探测模块。短前缀训练模块负责在教师反馈的基础上进行快速迭代,而全回合探测模块则用于评估前缀与全回合的对齐情况,并根据评估结果调整后续的训练策略。

关键创新:ADWIN的创新之处在于其自适应窗口机制,允许在线决策回合长度,避免了传统方法的高计算成本和低效监督问题。这一机制使得学生模型能够更有效地利用教师反馈。

关键设计:在设计上,ADWIN采用了短前缀训练与延迟全回合探测相结合的方式,关键参数包括前缀长度的动态调整策略和监督时限的控制机制,以确保训练过程的高效性与准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADWIN在数学和代码推理基准测试中,相较于全回合OPD和前缀基线,准确性与计算的权衡显著改善,训练成本最高降低至4.1倍,同时实现了相当或更优的准确性。

🎯 应用场景

ADWIN框架在多个领域具有广泛的应用潜力,尤其是在需要高效学习和推理的任务中,如自然语言处理、计算机视觉和机器人控制等。其优化的监督效率和降低的训练成本将推动智能系统的实际应用和发展。

📄 摘要(原文)

On-policy distillation (OPD) transfers reasoning behavior by training a student on teacher feedback along student-generated trajectories, but standard full-rollout training ties every update to a costly completion and can over-allocate supervision to late positions with low marginal value for the current student. We revisit this assumption through the useful supervision horizon: student-induced rollouts can drift from teacher-preferred continuations, while aligned prefixes may already preserve the long-horizon OPD update direction. We propose ADWIN, an adaptive-window framework for OPD that treats rollout length as an online admissibility decision, training on short teacher-anchored prefixes while using delayed full-rollout probes to audit prefix--full alignment and adapt the next horizon with staleness control. Across math and code reasoning benchmarks in single-task, multi-task, and strong-to-weak settings, ADWIN improves the accuracy--compute trade-off over full-rollout OPD and prefix-based baselines, reducing end-to-end training cost by up to 4.1 times while achieving comparable or better accuracy.