Draft-OPD: On-Policy Distillation for Speculative Draft Models

作者: Haodi Lei, Yafu Li, Haoran Zhang, Shunkai Zhang, Qianjia Cheng, Xiaoye Qu, Ganqu Cui, Bowen Zhou, Ning Ding, Yun Luo, Yu Cheng

分类: cs.CL

发布日期: 2026-05-28 (更新: 2026-05-29)

💡 一句话要点

提出Draft-OPD，通过在线蒸馏提升推测草稿模型的加速效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 在线蒸馏 草稿模型 模型加速 大型语言模型

📋 核心要点

现有草稿模型训练方法（SFT）存在离线训练与在线推理不匹配的问题，导致性能瓶颈。
提出Draft-OPD，利用目标模型在草稿模型产生的状态上进行在线蒸馏，解决策略不匹配问题。
实验表明，Draft-OPD在多种任务上实现了超过5倍的无损加速，显著优于现有方法。

📝 摘要（中文）

推测解码通过将目标模型与轻量级草稿模型配对，并行验证草稿模型提出的tokens，从而加速大型语言模型的推理。构建草稿模型的一种常见方法，如EAGLE3或DFlash，是在目标模型生成的轨迹上进行监督微调（SFT）。然而，我们观察到SFT迅速达到瓶颈：草稿模型在测试数据上的接受长度停止提高。原因是离线到推理的不匹配：在SFT中，起草者从固定的目标生成轨迹中学习，而在推测解码期间，它在自身策略下提出的块上进行评估。这促使我们采用在线蒸馏（OPD），其中目标模型在草稿模型诱导的状态下监督起草者。然而，OPD对于草稿模型来说仍然很困难，因为它们无法独立地可靠地展开完整的序列，而目标辅助生成使得收集的序列遵循目标分布，从而消除了在线信号。因此，我们提出了Draft-OPD，它使用目标辅助展开来实现稳定的延续，并从验证暴露的错误位置重放起草。这使得起草者能够从目标反馈中学习接受和拒绝的提议，从而将训练重点放在限制推测接受的草稿诱导错误上。实验表明，Draft-OPD在各种任务中实现了超过5倍的无损加速，比EAGLE-3和DFlash分别提高了23％和13％。

🔬 方法详解

问题定义：论文旨在解决推测解码中草稿模型训练效率低下的问题。现有方法，如基于监督微调（SFT）的方法，由于训练数据与实际推理过程存在差异，导致草稿模型性能提升受限，无法充分发挥推测解码的加速潜力。SFT训练时使用目标模型生成的固定轨迹，而推理时草稿模型独立生成token，这种不一致性是性能瓶颈的关键原因。

核心思路：论文的核心思路是采用在线蒸馏（On-Policy Distillation, OPD）的方式训练草稿模型。OPD让目标模型在草稿模型生成的序列上进行监督，从而使草稿模型的训练过程更贴近实际推理过程，解决离线训练与在线推理不匹配的问题。通过这种方式，草稿模型能够更好地学习目标模型的策略，提高生成token的准确性，从而提高推测解码的加速效果。

技术框架：Draft-OPD的技术框架主要包含以下几个阶段：1) 目标辅助展开：利用目标模型辅助草稿模型生成序列，保证序列的稳定性。2) 错误位置重放：从验证过程中暴露的错误位置重新开始起草，使草稿模型能够从被拒绝的提议中学习。3) 在线蒸馏：利用目标模型在草稿模型生成的序列上进行监督，更新草稿模型的参数。整个流程旨在使草稿模型的训练过程更贴近实际推理过程，提高其生成token的准确性。

关键创新：Draft-OPD的关键创新在于其在线蒸馏的训练方式，以及针对草稿模型特点设计的训练策略。与传统的离线训练方法相比，Draft-OPD能够更好地解决训练数据与实际推理过程不一致的问题。通过目标辅助展开和错误位置重放，Draft-OPD能够更有效地利用目标模型的反馈，提高草稿模型的性能。

关键设计：Draft-OPD的关键设计包括：1) 目标辅助展开的比例：需要仔细调整目标模型辅助展开的比例，以保证序列的稳定性，同时避免完全依赖目标模型，失去在线学习的意义。2) 错误位置重放的策略：需要设计合理的策略，选择哪些错误位置进行重放，以提高训练效率。3) 损失函数的设计：需要设计合适的损失函数，使草稿模型能够更好地学习目标模型的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Draft-OPD在多种任务上实现了超过5倍的无损加速，相比于EAGLE-3和DFlash，分别提升了23%和13%。这些结果证明了Draft-OPD在提高推测解码加速效果方面的显著优势。

🎯 应用场景

Draft-OPD可应用于各种需要加速大型语言模型推理的场景，例如智能对话系统、机器翻译、文本生成等。通过提高推理速度，可以降低计算成本，提升用户体验，并促进大型语言模型在资源受限设备上的部署。该方法具有广泛的应用前景和实际价值。

📄 摘要（原文）

Speculative decoding accelerates large language model inference by pairing a target model with a lightweight draft model whose proposed tokens are verified in parallel. A common way to build draft models, like EAGLE3 or DFlash is supervised fine-tuning (SFT) on target-generated trajectories. However, we observe that SFT quickly plateaus: the draft model's acceptance length on test data stops improving. The reason is an offline-to-inference mismatch: In SFT, the drafter learns from fixed target-generated trajectories, whereas during speculative decoding it is evaluated on blocks proposed under its own policy. This motivates on-policy distillation (OPD), where the target model supervises the drafter on draft-induced states. Yet OPD remains difficult for draft models, as they cannot reliably roll out complete sequences independently, whereas target-assisted generation makes the collected sequences follow the target distribution and thus eliminates the on-policy signal. We therefore propose Draft-OPD, which uses target-assisted rollout for stable continuations and replays drafting from the verification-exposed error positions. This allows the drafter to learn from target feedback on both accepted and rejected proposals, focusing training on the draft-induced errors that limit speculative acceptance. Experiments show that Draft-OPD achieves over $5\times$ lossless acceleration for thinking models across diverse tasks, improving over EAGLE-3 and DFlash by 23\% and 13\%.

Draft-OPD: On-Policy Distillation for Speculative Draft Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理