When Drafts Evolve: Speculative Decoding Meets Online Learning

📄 arXiv: 2603.12617v1 📥 PDF

作者: Yu-Yang Qian, Hao-Cong Wu, Yichao Fu, Hao Zhang, Peng Zhao

分类: cs.LG, cs.AI

发布日期: 2026-03-13


💡 一句话要点

提出OnlineSpec,通过在线学习持续优化草稿模型,加速推测解码。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 在线学习 大型语言模型 模型加速 动态后悔最小化

📋 核心要点

  1. 推测解码受限于草稿模型能力,难以准确逼近目标分布,导致加速效果不佳。
  2. OnlineSpec框架利用推测解码的验证反馈,通过在线学习迭代优化草稿模型。
  3. 实验表明,OnlineSpec在多个基准测试和模型上实现了显著的加速效果提升。

📝 摘要(中文)

推测解码已成为加速大型语言模型推理的常用范例,其中轻量级草稿模型快速生成候选token,然后由更大的目标模型并行验证。然而,由于模型容量有限,草稿模型通常难以逼近目标分布,导致接受长度较短,加速效果降低。一个关键但未被充分探索的观察是,推测解码固有地提供验证反馈,以量化草稿模型和目标模型之间的偏差,且无需额外成本。这个过程自然形成一个迭代的“草稿提交-反馈提供-草稿适应”的演进循环,这与在线学习范例完全匹配。受此连接的启发,我们提出了OnlineSpec,一个统一的框架,系统地利用交互式反馈来持续演进草稿模型。基于动态后悔最小化,我们建立了在线学习性能和推测系统加速率之间的正式联系,并通过现代在线学习技术开发了新的算法,包括乐观在线学习(自适应地重用历史梯度作为预测更新提示)和在线集成学习(动态地维护多个草稿模型)。我们的算法配备了理论依据和改进的加速率,在七个基准测试和三个基础模型上实现了高达24%的加速。

🔬 方法详解

问题定义:推测解码旨在加速大型语言模型的推理过程。现有的推测解码方法依赖于一个较小的“草稿模型”来快速生成候选token,然后由大型“目标模型”验证。然而,草稿模型的能力有限,难以准确模拟目标模型的输出分布,导致大量候选token被拒绝,降低了整体加速效果。因此,如何提升草稿模型的质量,使其更接近目标模型,是推测解码的关键挑战。

核心思路:OnlineSpec的核心思想是将推测解码过程视为一个在线学习问题。每次目标模型验证草稿模型的输出时,都会产生反馈信号,指示草稿模型的预测是否正确。OnlineSpec利用这些反馈信号,通过在线学习算法不断调整草稿模型的参数,使其逐渐逼近目标模型的分布。这种迭代式的“草稿-验证-反馈-更新”循环能够持续提升草稿模型的性能。

技术框架:OnlineSpec框架包含以下主要模块:1) 推测解码模块:使用草稿模型生成候选token,并由目标模型进行验证。2) 反馈收集模块:收集目标模型的验证结果,作为在线学习的反馈信号。3) 在线学习模块:根据反馈信号,使用在线学习算法更新草稿模型的参数。OnlineSpec支持多种在线学习算法,包括乐观在线学习和在线集成学习。乐观在线学习利用历史梯度信息加速模型更新,而在线集成学习则维护多个草稿模型,并动态调整它们的权重。

关键创新:OnlineSpec的关键创新在于将推测解码与在线学习相结合,利用推测解码过程产生的自然反馈信号来持续优化草稿模型。与传统的推测解码方法相比,OnlineSpec能够自适应地调整草稿模型,使其更好地适应目标模型的分布,从而提高加速效果。此外,OnlineSpec还提出了乐观在线学习和在线集成学习等新的在线学习算法,进一步提升了草稿模型的学习效率。

关键设计:OnlineSpec的关键设计包括:1) 动态后悔最小化:OnlineSpec的目标是最小化动态后悔,即草稿模型的预测与目标模型之间的差异。2) 乐观在线学习:利用历史梯度信息,通过置信区间估计来指导模型更新方向,加速学习过程。3) 在线集成学习:维护多个草稿模型,并根据验证结果动态调整它们的权重,以获得更好的预测性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OnlineSpec在七个基准测试和三个基础模型上实现了显著的加速效果提升,最高可达24%。与传统的推测解码方法相比,OnlineSpec能够更有效地利用推测解码过程产生的反馈信息,持续优化草稿模型,从而提高加速效果。这些结果验证了OnlineSpec的有效性和优越性。

🎯 应用场景

OnlineSpec可应用于各种需要加速大型语言模型推理的场景,例如:智能对话系统、机器翻译、文本生成等。通过提升推理速度,OnlineSpec能够降低计算成本,提高用户体验,并促进大型语言模型在资源受限环境中的部署。该研究对于推动人工智能技术的普及具有重要意义。

📄 摘要(原文)

Speculative decoding has emerged as a widely adopted paradigm for accelerating large language model inference, where a lightweight draft model rapidly generates candidate tokens that are then verified in parallel by a larger target model. However, due to limited model capacity, drafts often struggle to approximate the target distribution, resulting in shorter acceptance lengths and diminished speedup. A key yet under-explored observation is that speculative decoding inherently provides verification feedback that quantifies the deviation between the draft and target models at no additional cost. This process naturally forms an iterative "draft commits-feedback provides-draft adapts" evolving loop, which precisely matches the online learning paradigm. Motivated by this connection, we propose OnlineSpec, a unified framework that systematically leverages interactive feedback to continuously evolve draft models. Grounded in dynamic regret minimization, we establish a formal link between online learning performance and speculative system's acceleration rate, and develop novel algorithms via modern online learning techniques, including optimistic online learning that adaptively reuses historical gradients as predictive update hints, and online ensemble learning that dynamically maintains multiple draft models. Our algorithms are equipped with theoretical justifications and improved acceleration rates, achieving up to 24% speedup over seven benchmarks and three foundation models.