Hierarchical Autoscaling for Large Language Model Serving with Chiron

📄 arXiv: 2501.08090v1 📥 PDF

作者: Archit Patke, Dhemath Reddy, Saurabh Jha, Chandra Narayanaswami, Zbigniew Kalbarczyk, Ravishankar Iyer

分类: cs.DC, cs.AI

发布日期: 2025-01-14


💡 一句话要点

Chiron:面向LLM服务的层级自适应伸缩方案,优化SLO达成率和GPU效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型服务 自动伸缩 服务等级目标 资源优化 分层反压

📋 核心要点

  1. 现有LLM服务自动伸缩方案未充分考虑请求SLO,导致资源浪费和SLO未达成。
  2. Chiron采用分层反压机制,通过队列大小、利用率和SLO估计,实现更精细的资源调配。
  3. 实验结果表明,Chiron在SLO达成率和GPU效率方面均优于现有方案,提升显著。

📝 摘要(中文)

大型语言模型(LLM)服务正成为云服务提供商日益重要的工作负载。根据性能服务等级目标(SLO)的要求,LLM推理请求可分为两类:(a)具有严格SLO(秒级)的交互式请求,以及(b)具有宽松SLO(分钟级到小时级)的批量请求。这些SLO会因到达率、多路复用和配置参数而降低,因此需要在服务实例及其批处理大小上使用资源自动伸缩。然而,以往的LLM服务自动伸缩器没有考虑请求SLO,导致不必要的伸缩和资源利用不足。为了解决这些限制,我们提出了Chiron,一种利用队列大小、利用率和SLO估计的分层反压思想的自动伸缩器。实验表明,与现有解决方案相比,Chiron实现了高达90%的SLO达成率,并将GPU效率提高了高达70%。

🔬 方法详解

问题定义:论文旨在解决LLM服务中,现有自动伸缩方案无法有效兼顾不同类型请求的SLO,导致资源利用率低和SLO违反的问题。现有方法通常忽略了交互式请求和批量请求对SLO的不同要求,容易造成过度或不足的资源分配。

核心思路:Chiron的核心思路是利用分层反压机制,根据请求的SLO、队列长度和资源利用率,动态调整服务实例的数量和批处理大小。通过监控系统状态,预测潜在的SLO违反,并提前进行资源调整,从而保证SLO达成率,同时优化资源利用率。

技术框架:Chiron的整体架构包含以下几个主要模块:1) 监控模块:收集系统状态信息,包括队列长度、资源利用率、请求到达率等。2) 预测模块:基于历史数据和当前状态,预测未来的SLO违反情况。3) 决策模块:根据预测结果,决定是否需要调整服务实例的数量或批处理大小。4) 执行模块:执行决策模块的指令,调整资源配置。该框架采用分层结构,允许在不同层级上进行资源调整,从而实现更精细的控制。

关键创新:Chiron的关键创新在于其分层反压机制。与传统的基于利用率的自动伸缩方案不同,Chiron同时考虑了请求的SLO、队列长度和资源利用率,从而能够更准确地判断系统是否需要进行资源调整。此外,Chiron的分层结构允许在不同层级上进行资源调整,从而实现更精细的控制。

关键设计:Chiron的关键设计包括:1) SLO预测模型:用于预测未来的SLO违反情况,可以采用各种机器学习模型,如时间序列预测模型或回归模型。2) 决策算法:用于决定是否需要调整服务实例的数量或批处理大小,可以采用各种优化算法,如PID控制或强化学习。3) 分层结构:允许在不同层级上进行资源调整,例如,可以在服务实例级别调整CPU和GPU资源,也可以在批处理级别调整批处理大小。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,与现有解决方案相比,Chiron在SLO达成率方面提升高达90%,同时将GPU效率提高了高达70%。这些结果表明,Chiron能够有效地优化LLM服务的资源利用率和SLO达成率,从而降低成本并提高用户体验。具体的实验对比基线包括了常见的基于利用率的自动伸缩方案。

🎯 应用场景

Chiron适用于各种需要提供LLM服务的场景,例如云服务提供商、AI平台和企业内部的LLM应用。通过优化资源利用率和SLO达成率,Chiron可以降低LLM服务的成本,并提高用户体验。未来,Chiron可以进一步扩展到支持更多类型的LLM模型和服务。

📄 摘要(原文)

Large language model (LLM) serving is becoming an increasingly important workload for cloud providers. Based on performance SLO requirements, LLM inference requests can be divided into (a) interactive requests that have tight SLOs in the order of seconds, and (b) batch requests that have relaxed SLO in the order of minutes to hours. These SLOs can degrade based on the arrival rates, multiplexing, and configuration parameters, thus necessitating the use of resource autoscaling on serving instances and their batch sizes. However, previous autoscalers for LLM serving do not consider request SLOs leading to unnecessary scaling and resource under-utilization. To address these limitations, we introduce Chiron, an autoscaler that uses the idea of hierarchical backpressure estimated using queue size, utilization, and SLOs. Our experiments show that Chiron achieves up to 90% higher SLO attainment and improves GPU efficiency by up to 70% compared to existing solutions.