A Queueing-Theoretic Framework for Stability Analysis of LLM Inference with KV Cache Memory Constraints

📄 arXiv: 2605.04595v1 📥 PDF

作者: Chengyi Nie, Nian Si, Zijie Zhou

分类: cs.LG, cs.AI, math.OC

发布日期: 2026-05-06

备注: Accepted in ICML 2026


💡 一句话要点

提出基于排队论的LLM推理稳定性分析框架,解决KV缓存内存约束下的GPU资源分配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM推理 KV缓存 排队论 稳定性分析 GPU资源分配 系统部署 性能优化

📋 核心要点

  1. LLM推理面临计算资源和KV缓存内存的双重约束,现有方法难以有效分析和解决资源分配问题。
  2. 论文提出基于排队论的分析框架,显式考虑计算和内存约束,推导LLM推理的稳定性条件。
  3. 实验结果表明,该框架预测的稳定性条件准确度高,偏差通常在10%以内,可有效指导GPU资源配置。

📝 摘要(中文)

大型语言模型(LLM)的快速普及给大规模高效推理带来了重大挑战。与传统工作负载不同,LLM推理受到计算和键值(KV)缓存内存开销的双重约束,KV缓存虽然加速了解码过程,但会迅速耗尽GPU内存。本文提出了首个排队论框架,将计算和GPU内存约束显式地纳入LLM推理分析中。基于此框架,我们推导出了严格的稳定性和不稳定性条件,用于判断LLM推理服务能否在不导致队列无限增长的情况下维持传入的需求。该结果为系统部署提供了一个强大的工具,可以解决GPU资源配置的核心挑战。通过结合估计的请求到达率和我们推导出的稳定服务率,运营商可以计算出避免成本高昂的过度购买和性能下降的配置不足所需的集群规模。我们通过在真实GPU生产环境中进行的大量实验验证了我们的理论预测。结果表明,预测的稳定性条件非常准确,偏差通常在10%以内。

🔬 方法详解

问题定义:论文旨在解决大规模LLM推理服务中,由于KV缓存带来的GPU内存约束,导致资源分配困难的问题。现有方法通常只考虑计算资源的限制,忽略了内存对推理性能的影响,导致资源过度分配或分配不足,影响服务质量和成本。

核心思路:论文的核心思路是将LLM推理过程建模为一个排队系统,同时考虑计算资源和KV缓存内存的限制。通过排队论的分析方法,推导出系统稳定运行的条件,即请求到达率小于服务率。服务率的计算需要同时考虑计算能力和内存容量的限制,从而为GPU资源配置提供理论指导。

技术框架:该框架主要包含以下几个部分:1) 请求到达模型:描述请求到达LLM推理服务的速率;2) 服务模型:描述LLM推理服务处理请求的速率,该速率受到计算资源和KV缓存内存的限制;3) 排队模型:将请求排队等待处理的过程建模为一个排队系统;4) 稳定性分析:基于排队论的分析方法,推导出系统稳定运行的条件。

关键创新:该论文最重要的创新点在于,首次将排队论应用于LLM推理的稳定性分析,并显式地考虑了KV缓存内存的约束。这使得该框架能够更准确地预测LLM推理服务的性能,并为GPU资源配置提供更有效的指导。

关键设计:论文的关键设计包括:1) 使用M/M/c排队模型来描述LLM推理服务;2) 定义了服务率的计算方法,该方法同时考虑了计算能力和KV缓存内存的限制;3) 推导出了系统稳定运行的条件,即请求到达率小于服务率。具体而言,服务率的计算涉及对GPU内存容量、模型大小、序列长度等参数的建模,并需要根据实际的硬件环境进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在真实GPU生产环境中进行的大量实验验证了理论预测的准确性。实验结果表明,预测的稳定性条件与实际情况高度吻合,偏差通常在10%以内。这证明了该框架的有效性,并为实际应用提供了可靠的依据。

🎯 应用场景

该研究成果可应用于大规模LLM推理服务的部署和优化。通过该框架,运营商可以根据请求到达率和模型特性,精确计算所需的GPU资源数量,避免资源浪费或性能瓶颈。这有助于降低运营成本,提高服务质量,并支持更大规模的LLM应用。

📄 摘要(原文)

The rapid adoption of large language models (LLMs) has created significant challenges for efficient inference at scale. Unlike traditional workloads, LLM inference is constrained by both computation and the memory overhead of key-value (KV) caching, which accelerates decoding but quickly exhausts GPU memory. In this paper, we introduce the first queueing-theoretic framework that explicitly incorporates both computation and GPU memory constraints into the analysis of LLM inference. Based on this framework, we derive rigorous stability and instability conditions that determine whether an LLM inference service can sustain incoming demand without unbounded queue growth. This result offers a powerful tool for system deployment, potentially addressing the core challenge of GPU provisioning. By combining an estimated request arrival rate with our derived stable service rate, operators can calculate the necessary cluster size to avoid both costly over-purchasing and performance-violating under-provisioning. We further validate our theoretical predictions through extensive experiments in real GPU production environments. Our results show that the predicted stability conditions are highly accurate, with deviations typically within 10%.