An Interpretable Latency Model for Speculative Decoding in LLM Serving

作者: Linghao Kong, Megan Flynn, Michael Peng, Nir Shavit, Mark Kurtz, Alexandre Marques

分类: cs.LG, cs.PF

发布日期: 2026-05-14

备注: 10 pages, 8 figures

💡 一句话要点

提出一种可解释的延迟模型，用于分析LLM服务中推测解码的性能瓶颈。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 延迟模型 LLM服务 性能优化

📋 核心要点

现有研究对推测解码在实际LLM服务中的性能理解不足，尤其是在动态负载和批大小变化的情况下。
该论文提出了一种可解释的延迟模型，通过分解请求需求和应用利特尔法则来推断有效批大小。
实验验证了该模型在不同模型大小、请求率和草稿长度下的准确性，并解释了负载增加时加速效果减弱的原因。

📝 摘要（中文）

推测解码（SD）通过使用较小的草稿模型并行生成多个token，并由较大的目标模型进行验证，从而加速大型语言模型（LLM）的推理。尽管先前的工作表明在孤立或固定批处理设置下SD可以显著加速，但SD在生产服务系统中的行为仍然知之甚少：请求负载随时间变化，并且有效批大小是从服务系统中产生的，而不是直接控制或观察到的。本文针对LLM服务中的SD，开发了一个简单且可解释的延迟模型。我们使用利特尔法则从请求率推断出有效批大小，并将每个请求的需求分解为与负载无关和与负载相关的组件，用于预填充、起草和验证。我们使用来自vLLM的广泛测量数据验证了我们的模型，涵盖了验证器和起草模型大小、预填充和解码长度、请求率、草稿长度和接受概率。该模型准确地描述了观察到的延迟，解释了为什么加速通常随着服务器负载的增加而减少，并描述了草稿长度、接受率以及验证器-起草器大小如何影响服务条件下的延迟，这对在已部署系统中配置SD具有重要意义。我们进一步展示了该框架如何扩展到混合专家模型，其中稀疏专家激活改变了跨负载状态的有效服务成本。总之，我们的结果为理解真实LLM服务系统中的SD提供了一个结构化的框架。

🔬 方法详解

问题定义：论文旨在解决在实际LLM服务系统中，推测解码（Speculative Decoding, SD）的性能难以预测和优化的问题。现有方法通常在孤立或固定批处理设置下评估SD，忽略了实际服务中请求负载动态变化以及有效批大小难以直接控制的特点。这导致在生产环境中配置和优化SD变得困难，无法充分发挥其加速推理的潜力。

核心思路：论文的核心思路是将SD的延迟分解为与负载无关和与负载相关的组件，并利用利特尔法则（Little's Law）从请求率推断出有效批大小。通过建立一个可解释的延迟模型，可以更好地理解和预测SD在不同服务条件下的性能表现，从而指导SD的配置和优化。

技术框架：该论文提出的延迟模型主要包含以下几个阶段：1) 请求到达：服务系统接收来自用户的请求，请求率随时间变化。2) 有效批大小推断：利用利特尔法则，根据请求率估算服务系统中的有效批大小。3) 延迟分解：将每个请求的处理延迟分解为预填充（prefill）、起草（drafting）和验证（verification）三个阶段，每个阶段又分为与负载无关和与负载相关的组件。4) 延迟建模：对每个阶段的延迟进行建模，考虑模型大小、请求长度、草稿长度、接受率等因素的影响。5) 性能预测与分析：利用建立的延迟模型，预测SD在不同服务条件下的性能，并分析影响性能的关键因素。

关键创新：该论文最重要的技术创新点在于提出了一个简单且可解释的延迟模型，能够准确地描述和预测SD在实际LLM服务系统中的性能。该模型通过分解请求需求和应用利特尔法则，将复杂的服务系统行为简化为可理解的组件，从而为SD的配置和优化提供了理论基础。与现有方法相比，该模型更贴近实际服务场景，能够更好地反映动态负载和批大小变化对SD性能的影响。

关键设计：论文的关键设计包括：1) 使用利特尔法则估计有效批大小，将请求率与系统中的平均请求数量联系起来。2) 将延迟分解为与负载无关和与负载相关的组件，分别建模。3) 考虑了草稿长度、接受率以及验证器-起草器模型大小对延迟的影响。4) 将模型扩展到混合专家模型，考虑了稀疏专家激活对服务成本的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该模型能够准确描述观察到的延迟，并解释了负载增加时加速效果减弱的原因。通过对vLLM的广泛测量，验证了该模型在不同验证器和起草模型大小、预填充和解码长度、请求率、草稿长度和接受概率下的有效性。该模型还成功扩展到混合专家模型，证明了其通用性。

🎯 应用场景

该研究成果可应用于实际LLM服务系统的性能优化和资源配置。通过该延迟模型，可以预测不同负载和服务条件下的SD性能，从而指导模型选择、草稿长度设置和硬件资源分配。此外，该模型还可以用于评估新型SD策略和优化算法的性能，加速LLM在生产环境中的部署。

📄 摘要（原文）

Speculative decoding (SD) accelerates large language model (LLM) inference by using a smaller draft model to propose multiple tokens that are verified by a larger target model in parallel. While prior work demonstrates substantial speedups in isolated or fixed-batch settings, the behavior of SD in production serving systems remains poorly understood: request load varies over time, and effective batch size emerges from the serving system rather than being directly controlled or observed. In this work, we develop a simple and interpretable latency model for SD in LLM serving. We infer effective batch size from request rate using Little's Law and decompose per-request demand into load-independent and load-dependent components for prefill, drafting, and verification. We validate our model using extensive measurements from vLLM across verifier and drafter model sizes, prefill and decode lengths, request rates, draft lengths, and acceptance probabilities. The model accurately describes observed latency, explains why speedups often diminish as server load increases, and characterizes how draft length, acceptance rate, and verifier-drafter size shape latency across serving conditions, with implications for configuring SD in deployed systems. We further show how the framework extends to mixture of experts models, where sparse expert activation changes the effective service costs across load regimes. Together, our results provide a structured framework for understanding SD in real LLM serving systems.

An Interpretable Latency Model for Speculative Decoding in LLM Serving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理