Ascendra: Dynamic Request Prioritization for Efficient LLM Serving
作者: Azam Ikram, Xiang Li, Sameh Elnikety, Saurabh Bagchi
分类: cs.AI
发布日期: 2025-04-29 (更新: 2025-04-30)
💡 一句话要点
Ascendra:面向高效LLM服务的动态请求优先级调度系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM服务 请求优先级调度 服务级别目标 吞吐量优化 低延迟 GPU资源管理 动态优先级 性能模型
📋 核心要点
- 现有LLM服务系统难以同时满足TTFT和TBT的服务级别目标,通常顾此失彼。
- Ascendra的核心思想是根据请求接近截止日期的时间动态调整其优先级,从而平衡吞吐量和延迟。
- 实验结果表明,Ascendra在满足TTFT和TBT SLO的同时,吞吐量比vLLM和Sarathi-Serve提高了高达1.7倍。
📝 摘要(中文)
大型语言模型(LLM)的快速发展推动了对更高效服务策略的需求。本文中,效率指的是满足服务级别目标(SLO)的请求比例,特别是首个token生成时间(TTFT)和token间时间(TBT)。然而,现有系统通常以牺牲另一个指标为代价来优先考虑一个指标。我们提出了Ascendra,一个旨在同时满足TTFT和TBT SLO的LLM服务系统。Ascendra背后的核心思想是,请求的紧迫性随着其接近截止日期而演变。为了利用这一点,Ascendra将GPU资源划分为两种类型的实例:低优先级和高优先级。低优先级实例通过乱序处理请求来最大化吞吐量,但存在请求饥饿的风险。为了解决这个问题,Ascendra采用性能模型来预测有错过SLO风险的请求,并主动将它们卸载到高优先级实例。高优先级实例针对低延迟执行进行了优化,并处理接近截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估表明,Ascendra在满足TTFT和TBT SLO的同时,与vLLM和Sarathi-Serve相比,系统吞吐量提高了高达1.7倍。
🔬 方法详解
问题定义:现有LLM服务系统在优化服务效率时,难以兼顾首个token生成时间(TTFT)和token间时间(TBT)这两个关键指标。为了追求高吞吐量,系统可能牺牲部分请求的延迟,导致无法满足其服务级别目标(SLO)。现有方法的痛点在于缺乏一种动态的请求优先级调度机制,无法根据请求的紧迫程度合理分配资源。
核心思路:Ascendra的核心思路是根据请求剩余的时间动态调整其优先级。随着请求接近其截止时间,其优先级逐渐升高。通过这种方式,系统可以优先处理那些即将错过SLO的请求,从而保证整体的服务质量。这种动态优先级调整机制能够有效地平衡高吞吐量和低延迟,避免请求饥饿。
技术框架:Ascendra采用一种分区的GPU资源管理架构。系统将GPU资源划分为低优先级实例和高优先级实例。低优先级实例主要负责处理大部分请求,以最大化吞吐量。高优先级实例则专门用于处理那些即将错过SLO的紧急请求。系统使用一个性能模型来预测哪些请求有错过SLO的风险,并将这些请求从低优先级实例卸载到高优先级实例。
关键创新:Ascendra最重要的技术创新点在于其动态请求优先级调度机制。与现有方法不同,Ascendra不是静态地分配请求优先级,而是根据请求的剩余时间动态调整。这种动态调整机制能够更有效地利用GPU资源,保证整体的服务质量。此外,性能模型的引入使得系统能够提前预测有风险的请求,从而避免了请求错过SLO。
关键设计:Ascendra的关键设计包括性能模型的选择和训练,以及低优先级实例和高优先级实例的资源分配策略。性能模型需要能够准确预测请求的完成时间,以便及时将有风险的请求转移到高优先级实例。资源分配策略需要平衡低优先级实例和高优先级实例的资源需求,以最大化整体的吞吐量和延迟性能。具体的参数设置和损失函数等细节在论文中可能有所描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
Ascendra的实验结果表明,与vLLM和Sarathi-Serve相比,Ascendra在满足TTFT和TBT SLO的同时,系统吞吐量提高了高达1.7倍。这一显著的性能提升表明Ascendra的动态请求优先级调度机制能够有效地平衡高吞吐量和低延迟,从而提高LLM服务的效率。
🎯 应用场景
Ascendra适用于需要高效LLM服务的各种场景,例如在线聊天机器人、智能客服、文本生成等。通过提高LLM服务的吞吐量和降低延迟,Ascendra可以改善用户体验,并降低服务成本。该研究的成果可以应用于云服务提供商、企业内部的LLM服务平台等,具有广泛的应用前景和实际价值。
📄 摘要(原文)
The rapid advancement of Large Language Models (LLMs) has driven the need for more efficient serving strategies. In this context, efficiency refers to the proportion of requests that meet their Service Level Objectives (SLOs), particularly for Time To First Token (TTFT) and Time Between Tokens (TBT). However, existing systems often prioritize one metric at the cost of the other. We present Ascendra, an LLM serving system designed to meet both TTFT and TBT SLOs simultaneously. The core insight behind Ascendra is that a request's urgency evolves as it approaches its deadline. To leverage this, Ascendra partitions GPU resources into two types of instances: low-priority and high-priority. Low-priority instances maximize throughput by processing requests out of arrival order, but at the risk of request starvation. To address this, Ascendra employs a performance model to predict requests at risk of missing their SLOs and proactively offloads them to high-priority instances. High-priority instances are optimized for low-latency execution and handle urgent requests nearing their deadlines. This partitioned architecture enables Ascendra to effectively balance high throughput and low latency. Extensive evaluation shows that Ascendra improves system throughput by up to 1.7x compared to vLLM and Sarathi-Serve while meeting both TTFT and TBT SLOs.