Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

作者: Shijing Hu, Jingyang Li, Zhihui Lu, Pan Zhou

分类: cs.CL, cs.AI

发布日期: 2025-09-26

💡 一句话要点

提出Group Tree Optimization，解决推测解码中草稿策略不对齐问题，提升LLM推理速度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 模型加速 策略对齐 树搜索

📋 核心要点

现有推测解码方法训练目标与实际解码策略不一致，导致草稿模型性能受限，无法充分加速LLM推理。
GTO通过Draft Tree Reward直接优化解码性能，并使用Group-based Draft Policy Training稳定训练草稿模型。
实验表明，GTO在多个LLM和任务上显著提升了接受长度和推理速度，优于现有最佳方法。

📝 摘要（中文）

推测解码通过轻量级草稿模型并行生成多个token，供目标模型验证，从而加速大型语言模型（LLM）的推理。然而，现有的训练目标仅优化单一贪婪草稿路径，而解码过程遵循树策略，对多个分支进行重排序和验证。这种草稿策略的不对齐限制了可实现的加速。我们引入了Group Tree Optimization (GTO)，通过两个组成部分使训练与解码时的树策略对齐：（i）Draft Tree Reward，一种无采样的目标，等于目标模型下草稿树的预期接受长度，直接衡量解码性能；（ii）Group-based Draft Policy Training，一种稳定的优化方案，对比来自当前和冻结的参考草稿模型的树，形成去偏的组标准化优势，并沿着最长接受序列应用PPO风格的替代目标，以实现稳健的更新。我们进一步证明，增加我们的Draft Tree Reward可以显著提高接受长度和加速。在对话（MT-Bench）、代码（HumanEval）和数学（GSM8K）以及多个LLM（例如，LLaMA-3.1-8B、LLaMA-3.3-70B、Vicuna-1.3-13B、DeepSeek-R1-Distill-LLaMA-8B）上，GTO将接受长度提高了7.4%，并比之前的最先进EAGLE-3实现了额外的7.7%的加速。通过弥合草稿策略的不对齐，GTO为高效的LLM推理提供了一种实用、通用的解决方案。

🔬 方法详解

问题定义：现有推测解码方法在训练草稿模型时，通常只关注单一的贪婪解码路径，而实际解码过程中会探索多个分支，形成一棵树。这种训练目标与解码策略的不一致（draft policy misalignment）导致草稿模型无法充分利用目标模型的反馈，限制了推测解码的加速效果。现有方法未能有效解决这种不对齐问题，导致草稿模型预测的token被目标模型接受的比例较低，降低了整体推理速度。

核心思路：GTO的核心思路是将草稿模型的训练目标与实际解码时的树策略对齐。具体来说，GTO直接优化草稿树的预期接受长度，即目标模型接受的token数量的期望值。通过最大化这个期望值，GTO鼓励草稿模型生成更有可能被目标模型接受的token序列，从而提高推测解码的效率。此外，GTO还引入了一种稳定的训练方案，以避免训练过程中的不稳定性和崩溃。

技术框架：GTO主要包含两个核心模块：Draft Tree Reward和Group-based Draft Policy Training。Draft Tree Reward是一个无采样的目标函数，用于衡量草稿树的质量。Group-based Draft Policy Training是一种基于PPO的优化方案，用于更新草稿模型的参数。该方案通过对比当前草稿模型和冻结的参考草稿模型生成的树，计算优势函数，并使用该优势函数来更新草稿模型。整体流程如下：首先，使用草稿模型生成一棵草稿树；然后，使用目标模型验证草稿树中的token；接着，计算Draft Tree Reward；最后，使用Group-based Draft Policy Training更新草稿模型的参数。

关键创新：GTO最重要的技术创新点在于其直接优化草稿树的预期接受长度。与现有方法不同，GTO不依赖于单一的贪婪解码路径，而是考虑了整个草稿树的结构。这种方法能够更准确地反映草稿模型的实际解码性能，从而实现更有效的训练。此外，Group-based Draft Policy Training通过引入参考模型和组标准化，提高了训练的稳定性，避免了训练过程中的崩溃。

关键设计：Draft Tree Reward的设计关键在于如何有效地计算草稿树的预期接受长度。GTO采用了一种无采样的计算方法，避免了采样带来的方差。Group-based Draft Policy Training的关键在于如何选择合适的参考模型和如何计算优势函数。GTO选择冻结的草稿模型作为参考模型，并使用组标准化来减少方差。损失函数采用PPO风格的替代目标函数，以保证训练的稳定性。

📊 实验亮点

实验结果表明，GTO在多个LLM（如LLaMA-3.1-8B、LLaMA-3.3-70B、Vicuna-1.3-13B、DeepSeek-R1-Distill-LLaMA-8B）和任务（如MT-Bench、HumanEval、GSM8K）上均取得了显著的性能提升。GTO将接受长度提高了7.4%，并比之前的最先进EAGLE-3实现了额外的7.7%的加速。这些结果表明，GTO是一种有效的推测解码加速方法。

🎯 应用场景

GTO可广泛应用于各种需要加速LLM推理的场景，例如对话系统、代码生成、机器翻译等。通过提高LLM的推理速度，GTO可以降低计算成本，提高用户体验，并促进LLM在资源受限环境中的部署。未来，GTO可以与其他加速技术相结合，进一步提高LLM的推理效率。

📄 摘要（原文）

Speculative decoding accelerates large language model (LLM) inference by letting a lightweight draft model propose multiple tokens that the target model verifies in parallel. Yet existing training objectives optimize only a single greedy draft path, while decoding follows a tree policy that re-ranks and verifies multiple branches. This draft policy misalignment limits achievable speedups. We introduce Group Tree Optimization (GTO), which aligns training with the decoding-time tree policy through two components: (i) Draft Tree Reward, a sampling-free objective equal to the expected acceptance length of the draft tree under the target model, directly measuring decoding performance; (ii) Group-based Draft Policy Training, a stable optimization scheme that contrasts trees from the current and a frozen reference draft model, forming debiased group-standardized advantages and applying a PPO-style surrogate along the longest accepted sequence for robust updates. We further prove that increasing our Draft Tree Reward provably improves acceptance length and speedup. Across dialogue (MT-Bench), code (HumanEval), and math (GSM8K), and multiple LLMs (e.g., LLaMA-3.1-8B, LLaMA-3.3-70B, Vicuna-1.3-13B, DeepSeek-R1-Distill-LLaMA-8B), GTO increases acceptance length by 7.4% and yields an additional 7.7% speedup over prior state-of-the-art EAGLE-3. By bridging draft policy misalignment, GTO offers a practical, general solution for efficient LLM inference.

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册