Scaling Laws for Speculative Decoding
作者: Siyuan Yan, Mo Zhu, Guo-qing Jiang, Jianfei Wang, Jiaxing Chen, Wentai Zhang, Xiang Liao, Xiao Cui, Chen Zhang, Zhuoran Song, Ran Zhu
分类: cs.CL, cs.AI
发布日期: 2025-05-08
备注: 17 pages, 8 figures
💡 一句话要点
针对思辨解码,提出Log-linear Scaling Laws,加速LLM推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思辨解码 缩放定律 大型语言模型 推理加速 模型优化
📋 核心要点
- 现有思辨解码方法缺乏对解码效率缩放规律的深入研究,尤其是在预训练token量、模型容量和批大小等多维度上的影响。
- 论文提出Log-linear Scaling Laws,揭示了预训练数据量、草稿模型容量和解码批大小与解码速度之间的关系。
- 基于提出的缩放定律,实现了Scylla框架,在多个LLM上验证了其有效性,并在工业部署中实现了2倍的吞吐量提升。
📝 摘要(中文)
大型语言模型(LLM)中高效解码的需求日益增长,对于像OpenAI-o3和DeepSeek-R1这样依赖扩展的思维链推理的架构尤为关键。本研究通过密集LLM架构研究了思辨解码技术,旨在为加速推理任务建立基础性见解。虽然利用并行草案验证循环的思辨解码方法已成为有希望的加速技术,但与通过Pretraining->SFT->RLHF训练范式开发的传统骨干LLM相比,控制解码效率的缩放定律仍未得到充分探索。在这项工作中,我们发现了控制草案模型接受率(或解码速度)的Log-linear Scaling Laws(定理1.1、1.2和1.3),这些定律涵盖了三个维度:预训练token量、草案模型容量和解码批大小。基于这些定律,我们实现了Scylla,它可以协调流行LLM(Llama2/3、Qwen2.5)的多维缩放。经验验证表明,在温度T = 0时,Scylla的接受率比EAGLE2高1.5-2.2倍,比EAGLE3高0.3倍,并且在摘要和QA任务上实现了峰值性能提升(图2)。工业推理引擎部署表明,解码吞吐量比EAGLE2提高了2倍(表5),验证了系统缩放对于高效LLM推理的变革潜力。代码将在稍后发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)推理效率低下的问题,特别是在需要复杂推理的任务中。现有的思辨解码方法虽然能够加速推理,但缺乏对影响解码效率的关键因素的系统性研究,导致难以充分发挥其潜力。现有方法依赖人工调参,缺乏理论指导,难以在不同模型和任务上泛化。
核心思路:论文的核心思路是通过研究思辨解码过程中的缩放规律,建立预训练数据量、草稿模型容量和解码批大小与解码速度之间的量化关系。基于这些缩放规律,可以更有效地配置和优化思辨解码过程,从而提高LLM的推理效率。通过理论指导,避免了人工调参的盲目性,提高了泛化能力。
技术框架:论文提出了Scylla框架,该框架基于Log-linear Scaling Laws,能够协调多维缩放,优化思辨解码过程。具体流程包括:1) 分析不同维度(预训练token量、草稿模型容量、解码批大小)对解码速度的影响;2) 建立Log-linear Scaling Laws模型;3) 基于缩放定律,自动配置草稿模型和解码参数;4) 在目标LLM上进行思辨解码。
关键创新:论文最重要的技术创新点在于发现了Log-linear Scaling Laws,这是首次对思辨解码过程中的关键因素进行量化建模。与现有方法相比,该方法不再依赖经验和人工调参,而是通过理论指导,实现了更高效和可泛化的思辨解码。
关键设计:论文的关键设计包括:1) 使用对数线性模型来拟合不同维度与解码速度之间的关系;2) 设计了Scylla框架,能够自动根据缩放定律配置草稿模型和解码参数;3) 针对不同的LLM(Llama2/3、Qwen2.5)进行了实验验证,证明了缩放定律的有效性和Scylla框架的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Scylla框架在温度T=0时,接受率比EAGLE2高1.5-2.2倍,比EAGLE3高0.3倍。在摘要和QA任务上实现了峰值性能提升。工业推理引擎部署表明,解码吞吐量比EAGLE2提高了2倍。这些结果验证了Log-linear Scaling Laws的有效性和Scylla框架的优越性。
🎯 应用场景
该研究成果可广泛应用于需要高效LLM推理的场景,例如智能客服、机器翻译、文本摘要、问答系统等。通过提高推理效率,可以降低计算成本,提升用户体验,并促进LLM在更多领域的应用。未来,该研究可以扩展到其他类型的LLM和推理任务,进一步提升LLM的实用性。
📄 摘要(原文)
The escalating demand for efficient decoding in large language models (LLMs) is particularly critical for reasoning-intensive architectures like OpenAI-o3 and DeepSeek-R1, which depend on extended chain-of-thought reasoning. This study investigates speculative decoding techniques through dense LLM architectures to establish foundational insights for accelerating reasoning tasks. While speculative decoding methods leveraging parallel draft-verification cycles have emerged as promising acceleration techniques, the scaling laws governing decoding efficiency remain under-explored compared to conventional backbone LLMs developed through Pretraining->SFT->RLHF training paradigms. In this work, we discover Log-linear Scaling Laws (Theorem 1.1, 1.2 and 1.3) governing draft model acceptance rate (or decoding speed) across three dimensions: pretraining token volume, draft model capacity, and decoding batch size. Building on these laws, we achieve Scylla, which coordinates multi-dimensional scaling for popular LLMs (Llama2/3, Qwen2.5). Empirical validation shows Scylla achieves 1.5-2.2 higher acceptance rate than EAGLE2 and 0.3 higher than EAGLE3 at temperature T = 0, with peak performance gains on summarization and QA tasks (Figure 2). Industrial inference engine deployments demonstrate 2X decoding throughput improvements over EAGLE2 (Table 5), validating the transformative potential of systematic scaling for efficient LLM inference. Code will be released later.