Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing
作者: Miao Rang, Zhenni Bi, Hang Zhou, Kai Han, Xuechun Wang, An Xiao, Xinghao Chen, Yunhe Wang, Hanting Chen
分类: cs.LG, cs.CL
发布日期: 2026-05-07
💡 一句话要点
提出Near-Policy Distillation,加速自回归模型知识蒸馏,缓解分布不匹配问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 自回归模型 异步训练 序列打包 样本选择 On-policy学习 强化学习 模型压缩
📋 核心要点
- 自回归模型的知识蒸馏容易出现分布不匹配,On-policy方法虽能缓解,但依赖高计算成本的强化学习框架。
- Near-Policy Distillation (NPD) 通过异步生成和选择性打包,将学生模型的生成与训练解耦,加速蒸馏过程。
- 实验表明,NPD比On-policy基线快8.1倍,性能优于SFT 8.09%,并在openPangu-Embedded-1B上取得SOTA结果。
📝 摘要(中文)
针对自回归模型知识蒸馏中常见的分布不匹配问题,本文提出Near-Policy Distillation (NPD)。NPD采用异步方法解耦学生模型的生成和训练过程,从而能够使用序列打包进行监督微调(SFT),提升训练效率。为了解决异步更新带来的策略滞后和样本噪声问题,NPD集成了稀疏学生模型更新和$Δ$-IFD过滤机制。$Δ$-IFD是一种启发式样本选择机制,通过过滤极端离群样本来稳定优化轨迹,防止噪声主导梯度,确保更新在安全的近策略学习范围内。实验结果表明,NPD框架比on-policy基线快8.1倍,并且优于SFT 8.09%。通过有效缩小后续强化学习的探索空间,NPD使openPangu-Embedded-1B达到了68.73%的最先进分数,超越了更大的Qwen3-1.7B。
🔬 方法详解
问题定义:自回归模型的知识蒸馏通常面临分布不匹配的问题,即学生模型生成的样本与教师模型期望的样本分布存在偏差。传统的On-policy方法虽然能够缓解这一问题,但它们依赖于计算量巨大的强化学习框架,训练效率低下。如何高效地进行自回归模型的知识蒸馏,同时避免分布不匹配是论文要解决的核心问题。
核心思路:论文的核心思路是将学生模型的生成过程与训练过程解耦,采用异步的方式进行。这样就可以利用序列打包技术进行监督微调(SFT),从而提高训练效率。为了解决异步更新带来的策略滞后和样本噪声问题,论文引入了稀疏学生模型更新和$Δ$-IFD过滤机制。
技术框架:NPD框架包含两个主要部分:异步样本生成和选择性序列打包训练。首先,学生模型异步地生成样本序列。然后,使用$Δ$-IFD过滤机制选择高质量的样本。最后,将这些样本打包成更长的序列,用于监督微调(SFT)训练。稀疏学生模型更新用于缓解策略滞后。
关键创新:NPD的关键创新在于异步生成和选择性打包的思想,以及$Δ$-IFD过滤机制。与传统的On-policy方法相比,NPD避免了使用强化学习框架,从而大大提高了训练效率。$Δ$-IFD过滤机制能够有效地过滤掉噪声样本,保证训练的稳定性。
关键设计:$Δ$-IFD过滤机制的核心是计算学生模型生成序列和教师模型生成序列之间的差异($Δ$)。基于这个差异,论文定义了一个指标IFD (In-distribution Filter Degree),用于衡量一个样本属于目标分布的程度。论文通过设定一个阈值,过滤掉IFD值低于阈值的样本。具体的阈值设置和IFD的计算方式在论文中有详细描述。此外,稀疏学生模型更新通过控制更新频率来平衡训练效率与策略同步性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NPD框架比On-policy基线快8.1倍,并且优于SFT 8.09%。更重要的是,通过有效缩小后续强化学习的探索空间,NPD使得openPangu-Embedded-1B模型达到了68.73%的SOTA分数,超越了参数规模更大的Qwen3-1.7B模型。这些结果验证了NPD在加速知识蒸馏和提高模型性能方面的有效性。
🎯 应用场景
该研究成果可广泛应用于自然语言处理领域,特别是在大型语言模型的压缩和加速方面。NPD能够帮助训练更小、更高效的模型,从而降低计算成本和部署难度。例如,可以将大型语言模型蒸馏成更小的模型,部署在移动设备或边缘设备上,实现更广泛的应用。此外,NPD还可以用于生成模型的对抗训练,提高模型的鲁棒性。
📄 摘要(原文)
Standard knowledge distillation for autoregressive models often suffers from distribution mismatch. While on-policy methods mitigate this by leveraging student-generated outputs, they rely on computationally expensive Reinforcement Learning (RL) frameworks. To improve efficiency, we propose Near-Policy Distillation (NPD), an asynchronous approach that decouples student generation from training. This reformulation enables Supervised Fine-Tuning (SFT) with sequence packing. However, asynchronous updates inevitably introduce policy lag and sample noise, which can cause the behavior to drift from near-policy toward off-policy. To counteract this without sacrificing efficiency, NPD integrates sparse student updates and the $Δ$-IFD filtering mechanism, a heuristic sample selection mechanism that empirically stabilizes the optimization trajectory. By filtering extreme out-of-distribution samples, $Δ$-IFD prevents noise from dominating the gradients, ensuring updates remain within a safe proximal learning zone. Empirically, the NPD framework achieves a 8.1x speedup over on-policy baselines and outperforms SFT by 8.09%. Crucially, by effectively narrowing the exploration space for subsequent RL, our method enables openPangu-Embedded-1B to reach a state-of-the-art score of 68.73%, outperforming the substantially larger Qwen3-1.7B. Codes will be released soon.