Draft-OPD: On-Policy Distillation for Speculative Draft Models
作者: Haodi Lei, Yafu Li, Haoran Zhang, Shunkai Zhang, Qianjia Cheng, Xiaoye Qu, Ganqu Cui, Bowen Zhou, Ning Ding, Yun Luo, Yu Cheng
分类: cs.CL
发布日期: 2026-05-28 (更新: 2026-05-29)
💡 一句话要点
提出Draft-OPD,通过在线蒸馏提升推测草稿模型的加速效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 在线蒸馏 草稿模型 模型加速 大型语言模型
📋 核心要点
- 现有草稿模型训练方法(SFT)存在离线训练与在线推理不匹配的问题,导致性能瓶颈。
- 提出Draft-OPD,利用目标模型在草稿模型产生的状态上进行在线蒸馏,解决策略不匹配问题。
- 实验表明,Draft-OPD在多种任务上实现了超过5倍的无损加速,显著优于现有方法。
📝 摘要(中文)
推测解码通过将目标模型与轻量级草稿模型配对,并行验证草稿模型提出的tokens,从而加速大型语言模型的推理。构建草稿模型的一种常见方法,如EAGLE3或DFlash,是在目标模型生成的轨迹上进行监督微调(SFT)。然而,我们观察到SFT迅速达到瓶颈:草稿模型在测试数据上的接受长度停止提高。原因是离线到推理的不匹配:在SFT中,起草者从固定的目标生成轨迹中学习,而在推测解码期间,它在自身策略下提出的块上进行评估。这促使我们采用在线蒸馏(OPD),其中目标模型在草稿模型诱导的状态下监督起草者。然而,OPD对于草稿模型来说仍然很困难,因为它们无法独立地可靠地展开完整的序列,而目标辅助生成使得收集的序列遵循目标分布,从而消除了在线信号。因此,我们提出了Draft-OPD,它使用目标辅助展开来实现稳定的延续,并从验证暴露的错误位置重放起草。这使得起草者能够从目标反馈中学习接受和拒绝的提议,从而将训练重点放在限制推测接受的草稿诱导错误上。实验表明,Draft-OPD在各种任务中实现了超过5倍的无损加速,比EAGLE-3和DFlash分别提高了23%和13%。
🔬 方法详解
问题定义:论文旨在解决推测解码中草稿模型训练效率低下的问题。现有方法,如基于监督微调(SFT)的方法,由于训练数据与实际推理过程存在差异,导致草稿模型性能提升受限,无法充分发挥推测解码的加速潜力。SFT训练时使用目标模型生成的固定轨迹,而推理时草稿模型独立生成token,这种不一致性是性能瓶颈的关键原因。
核心思路:论文的核心思路是采用在线蒸馏(On-Policy Distillation, OPD)的方式训练草稿模型。OPD让目标模型在草稿模型生成的序列上进行监督,从而使草稿模型的训练过程更贴近实际推理过程,解决离线训练与在线推理不匹配的问题。通过这种方式,草稿模型能够更好地学习目标模型的策略,提高生成token的准确性,从而提高推测解码的加速效果。
技术框架:Draft-OPD的技术框架主要包含以下几个阶段:1) 目标辅助展开:利用目标模型辅助草稿模型生成序列,保证序列的稳定性。2) 错误位置重放:从验证过程中暴露的错误位置重新开始起草,使草稿模型能够从被拒绝的提议中学习。3) 在线蒸馏:利用目标模型在草稿模型生成的序列上进行监督,更新草稿模型的参数。整个流程旨在使草稿模型的训练过程更贴近实际推理过程,提高其生成token的准确性。
关键创新:Draft-OPD的关键创新在于其在线蒸馏的训练方式,以及针对草稿模型特点设计的训练策略。与传统的离线训练方法相比,Draft-OPD能够更好地解决训练数据与实际推理过程不一致的问题。通过目标辅助展开和错误位置重放,Draft-OPD能够更有效地利用目标模型的反馈,提高草稿模型的性能。
关键设计:Draft-OPD的关键设计包括:1) 目标辅助展开的比例:需要仔细调整目标模型辅助展开的比例,以保证序列的稳定性,同时避免完全依赖目标模型,失去在线学习的意义。2) 错误位置重放的策略:需要设计合理的策略,选择哪些错误位置进行重放,以提高训练效率。3) 损失函数的设计:需要设计合适的损失函数,使草稿模型能够更好地学习目标模型的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Draft-OPD在多种任务上实现了超过5倍的无损加速,相比于EAGLE-3和DFlash,分别提升了23%和13%。这些结果证明了Draft-OPD在提高推测解码加速效果方面的显著优势。
🎯 应用场景
Draft-OPD可应用于各种需要加速大型语言模型推理的场景,例如智能对话系统、机器翻译、文本生成等。通过提高推理速度,可以降低计算成本,提升用户体验,并促进大型语言模型在资源受限设备上的部署。该方法具有广泛的应用前景和实际价值。
📄 摘要(原文)
Speculative decoding accelerates large language model inference by pairing a target model with a lightweight draft model whose proposed tokens are verified in parallel. A common way to build draft models, like EAGLE3 or DFlash is supervised fine-tuning (SFT) on target-generated trajectories. However, we observe that SFT quickly plateaus: the draft model's acceptance length on test data stops improving. The reason is an offline-to-inference mismatch: In SFT, the drafter learns from fixed target-generated trajectories, whereas during speculative decoding it is evaluated on blocks proposed under its own policy. This motivates on-policy distillation (OPD), where the target model supervises the drafter on draft-induced states. Yet OPD remains difficult for draft models, as they cannot reliably roll out complete sequences independently, whereas target-assisted generation makes the collected sequences follow the target distribution and thus eliminates the on-policy signal. We therefore propose Draft-OPD, which uses target-assisted rollout for stable continuations and replays drafting from the verification-exposed error positions. This allows the drafter to learn from target feedback on both accepted and rejected proposals, focusing training on the draft-induced errors that limit speculative acceptance. Experiments show that Draft-OPD achieves over $5\times$ lossless acceleration for thinking models across diverse tasks, improving over EAGLE-3 and DFlash by 23\% and 13\%.