Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving
作者: Shihong Gao, Xin Zhang, Yanyan Shen, Lei Chen
分类: cs.LG
发布日期: 2025-04-10
DOI: 10.1145/3725394
💡 一句话要点
Apt-Serve:面向LLM推理服务,提出混合缓存和自适应调度以提升有效吞吐量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM推理服务 混合缓存 自适应调度 有效吞吐量 GPU优化
📋 核心要点
- 现有LLM推理服务系统难以在高请求速率下满足延迟SLO,导致有效吞吐量受限,主要瓶颈在于内存密集型KV缓存和刚性调度策略。
- Apt-Serve提出混合缓存方案,结合KV缓存和隐藏缓存,以支持更大的批量大小和更高的请求并发,并采用自适应运行时调度机制动态优化批处理组合。
- 实验结果表明,Apt-Serve在有效吞吐量方面相比现有最先进的推理服务系统实现了高达8.8倍的提升,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLM)推理服务系统对于各种基于LLM的应用至关重要。随着对LLM服务需求的持续增长,扩展这些系统以处理高请求速率,同时满足延迟服务级别目标(SLO),即有效吞吐量,变得至关重要。然而,现有的系统通常难以提高有效吞吐量,这主要是由于首次令牌时间(TTFT)SLO达成率的显著下降。我们确定了这一瓶颈的两个主要原因:(1)内存密集型的KV缓存限制了GPU内存约束下的批量大小扩展,以及(2)默认的先来先服务调度策略强制执行的刚性批处理组合。在本文中,我们介绍了一种可扩展的框架Apt-Serve,旨在提高LLM推理服务中的有效吞吐量。Apt-Serve采用了一种新的混合缓存方案,该方案将KV缓存与内存高效的隐藏缓存相结合,用于可重用的输入隐藏状态向量,从而允许更大的批量大小并提高请求并发性。基于混合缓存,Apt-Serve采用了一种自适应运行时调度机制,可以动态优化批处理组合。我们正式定义了自适应调度优化问题,并提出了一种具有理论保证的有效算法。在三个真实世界数据集和参数范围从13B到66B的LLM上的广泛评估表明,与最先进的推理服务系统相比,Apt-Serve在有效吞吐量方面实现了高达8.8倍的提升。
🔬 方法详解
问题定义:现有LLM推理服务系统在高并发场景下,受限于GPU内存容量,无法有效扩展batch size,导致TTFT (Time To First Token) 延迟增加,有效吞吐量降低。传统的First-Come-First-Serve (FCFS) 调度策略无法充分利用系统资源,进一步加剧了这一问题。因此,需要解决如何在有限的GPU内存下,优化batch size和调度策略,从而提升LLM推理服务的有效吞吐量。
核心思路:Apt-Serve的核心思路是利用混合缓存机制和自适应调度策略,突破现有系统的瓶颈。混合缓存通过引入隐藏缓存,存储可重用的输入隐藏状态向量,降低了对KV缓存的依赖,从而允许更大的batch size。自适应调度策略则根据系统状态动态调整batch的组成,优化资源利用率,降低延迟。
技术框架:Apt-Serve的整体框架包含混合缓存模块和自适应调度模块。混合缓存模块负责管理KV缓存和隐藏缓存,并提供高效的缓存访问接口。自适应调度模块则根据系统负载、请求优先级等因素,动态调整batch的组成,并选择合适的执行顺序。整个流程如下:接收请求 -> 查询混合缓存 -> 构建batch -> 执行推理 -> 返回结果。
关键创新:Apt-Serve的关键创新在于混合缓存和自适应调度的结合。混合缓存有效降低了对KV缓存的依赖,允许更大的batch size,从而提升了GPU利用率。自适应调度则能够根据系统状态动态调整batch的组成,优化资源分配,降低延迟。这种结合使得Apt-Serve能够在高并发场景下实现更高的有效吞吐量。
关键设计:混合缓存的关键设计在于如何高效地存储和访问隐藏状态向量。自适应调度的关键设计在于如何定义优化目标和设计高效的调度算法。论文正式定义了自适应调度优化问题,并提出了一种具有理论保证的有效算法。具体的参数设置和损失函数等技术细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Apt-Serve在三个真实世界数据集和参数范围从13B到66B的LLM上进行了广泛评估,与最先进的推理服务系统相比,Apt-Serve在有效吞吐量方面实现了高达8.8倍的提升。这一显著的性能提升验证了Apt-Serve的有效性和优越性。
🎯 应用场景
Apt-Serve可广泛应用于各种需要大规模LLM推理服务的场景,例如智能客服、AI写作、代码生成等。通过提升有效吞吐量,Apt-Serve能够降低服务成本,提高用户体验,并为更多创新应用提供支持。未来,Apt-Serve有望成为LLM推理服务的基础设施,推动人工智能技术的普及和发展。
📄 摘要(原文)
Large language model (LLM) inference serving systems are essential to various LLM-based applications. As demand for LLM services continues to grow, scaling these systems to handle high request rates while meeting latency Service-Level Objectives (SLOs), referred to as effective throughput, becomes critical. However, existing systems often struggle to improve effective throughput, primarily due to a significant decline in Time To First Token (TTFT) SLO attainment. We identify two major causes of this bottleneck: (1) memory-intensive KV cache that limits batch size expansion under GPU memory constraints, and (2) rigid batch composition enforced by the default First-Come-First-Serve scheduling policy. In this paper, we introduce Apt-Serve, a scalable framework designed to enhance effective throughput in LLM inference serving. Apt-Serve features a new hybrid cache scheme that combines KV cache with a memory-efficient hidden cache for reusable input hidden state vectors, allowing large batch sizes and improving request concurrency. Based on the hybrid cache, Apt-Serve employs an adaptive runtime scheduling mechanism that dynamically optimizes batch composition. We formally define the adaptive scheduling optimization problem and propose an efficient algorithm with theoretical guarantees. Extensive evaluations on three real-world datasets and LLMs ranging from 13B to 66B parameters demonstrate that Apt-Serve achieves up to 8.8x improvement in effective throughput compared to the state-of-the-art inference serving systems.