Nightjar: Dynamic Adaptive Speculative Decoding for Large Language Models Serving

📄 arXiv: 2512.22420v1 📥 PDF

作者: Rui Li, Zhaoning Zhang, Libo Zhang, Huaimin Wang, Xiang Fu, Zhiquan Lai

分类: cs.DC, cs.AI

发布日期: 2025-12-27

备注: 6 pages, 11 figures


💡 一句话要点

Nightjar:一种动态自适应推测解码方法,提升大语言模型服务吞吐量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大语言模型 在线服务 动态自适应 性能优化

📋 核心要点

  1. 现有推测解码方法采用固定推测长度,无法适应动态变化的请求负载,导致性能瓶颈。
  2. Nightjar通过学习动态调整推测长度,根据请求负载自适应地选择最优长度,甚至禁用推测解码。
  3. 实验结果表明,Nightjar相比标准推测解码,吞吐量提升高达14.8%,延迟降低20.2%。

📝 摘要(中文)

推测解码(SD)通过并行验证草稿token来加速LLM推理。然而,这种方法存在一个关键的权衡:它在低负载、内存受限的系统中提高了吞吐量,但在高负载、计算受限的环境中,由于验证开销而降低了性能。目前的SD实现使用固定的推测长度,无法适应动态请求速率,从而在实际服务场景中造成了显著的性能瓶颈。为了克服这个问题,我们提出了一种新的基于学习的自适应推测推理算法Nightjar,它通过动态选择不同批大小的最佳推测长度来适应请求负载,甚至在没有收益时禁用推测解码。实验表明,与标准推测解码相比,Nightjar实现了高达14.8%的吞吐量提升和20.2%的延迟降低,展示了实时服务的强大效率。

🔬 方法详解

问题定义:论文旨在解决大语言模型服务中,推测解码因固定推测长度而无法适应动态请求负载,导致在高负载环境下性能下降的问题。现有推测解码方法的痛点在于无法根据实际负载情况调整推测长度,导致验证开销过大或推测效率低下。

核心思路:论文的核心思路是利用学习方法,动态地预测并调整推测解码的推测长度。通过观察系统负载和性能指标,学习一个策略来选择最优的推测长度,从而在不同负载条件下都能获得最佳的性能。当推测解码带来的开销超过收益时,甚至可以完全禁用推测解码。

技术框架:Nightjar的整体框架包含以下几个主要模块:1) 负载监控模块:实时监控系统的请求负载、CPU利用率、内存占用等指标。2) 策略学习模块:基于历史数据和当前负载信息,学习一个策略来预测最优的推测长度。可以使用强化学习或监督学习方法。3) 推测解码执行模块:根据策略学习模块的预测结果,动态调整推测解码的推测长度,并执行推测解码过程。4) 性能评估模块:评估当前推测长度下的性能指标,并将评估结果反馈给策略学习模块,用于策略的持续优化。

关键创新:Nightjar最重要的技术创新点在于其动态自适应的推测长度调整机制。与现有方法采用固定推测长度不同,Nightjar能够根据实际负载情况,动态地选择最优的推测长度,从而在不同负载条件下都能获得最佳的性能。这种自适应性是Nightjar能够显著提升性能的关键。

关键设计:策略学习模块是Nightjar的关键设计之一。可以使用强化学习方法,将系统负载作为状态,推测长度作为动作,性能指标(如吞吐量、延迟)作为奖励,训练一个强化学习模型来预测最优的推测长度。也可以使用监督学习方法,收集历史数据,训练一个回归模型来预测最优的推测长度。此外,还需要设计合适的奖励函数或损失函数,以及合适的网络结构,以保证策略学习的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Nightjar在实际服务场景中表现出色,与标准推测解码相比,实现了高达14.8%的吞吐量提升和20.2%的延迟降低。这些结果验证了Nightjar动态自适应推测解码方法的有效性,并表明其在提升LLM服务性能方面具有显著优势。

🎯 应用场景

Nightjar适用于需要高吞吐量和低延迟的大语言模型在线服务场景,例如智能客服、文本生成、机器翻译等。通过动态调整推测长度,Nightjar可以显著提升LLM服务的性能,降低部署成本,并提高用户体验。该研究成果对于构建高效、可扩展的LLM服务具有重要的实际价值和未来影响。

📄 摘要(原文)

Speculative decoding (SD) accelerates LLM inference by verifying draft tokens in parallel. However, this method presents a critical trade-off: it improves throughput in low-load, memory-bound systems but degrades performance in high-load, compute-bound environments due to verification overhead. Current SD implementations use a fixed speculative length, failing to adapt to dynamic request rates and creating a significant performance bottleneck in real-world serving scenarios. To overcome this, we propose Nightjar, a novel learning-based algorithm for adaptive speculative inference that adjusts to request load by dynamically selecting the optimal speculative length for different batch sizes and even disabling speculative decoding when it provides no benefit. Experiments show that Nightjar achieves up to 14.8% higher throughput and 20.2% lower latency compared to standard speculative decoding, demonstrating robust efficiency for real-time serving.