Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation
作者: Yunkai Liang, Zhangyu Chen, Pengfei Zuo, Zhi Zhou, Xu Chen, Zhou Yu
分类: cs.DC, cs.LG
发布日期: 2025-03-26
备注: 14 pages, 18 figures
💡 一句话要点
Adrenaline:通过注意力解耦提升LLM Serving的资源利用率和吞吐量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型服务 资源利用率 注意力机制 解耦与卸载 推理吞吐量
📋 核心要点
- 现有LLM Serving系统采用预填充-解码解耦,但导致预填充实例内存利用率低,解码实例计算利用率低,造成资源浪费。
- Adrenaline通过解耦解码阶段的注意力计算,并将其卸载到预填充实例,从而提高整体资源利用率和系统性能。
- 实验表明,Adrenaline显著提高了预填充实例的内存利用率和解码实例的计算利用率,整体推理吞吐量提升了1.68倍。
📝 摘要(中文)
在大语言模型(LLM)服务系统中,执行每个请求包含两个阶段:计算密集型的预填充(prefill)阶段和内存密集型的解码(decoding)阶段。为了防止两个阶段之间的性能干扰,当前的LLM服务系统通常采用预填充-解码解耦,将两个阶段分配到不同的机器上。然而,这种方法导致了显著的资源利用不足。具体来说,计算密集型的预填充实例的内存利用率较低,而内存密集型的解码实例的计算利用率较低。为了解决这个问题,本文提出了Adrenaline,一种注意力解耦和卸载机制,旨在提高LLM服务系统中的资源利用率和性能。Adrenaline的关键创新在于解耦解码阶段的部分注意力计算,并将其卸载到预填充实例。解码阶段注意力计算的内存绑定特性天然地支持有效的卸载策略,从而产生两个互补的优势:1)提高了预填充实例中的内存容量和带宽利用率;2)增加了解码批处理大小,从而提高了解码实例中的计算利用率,共同提升了整体系统性能。Adrenaline通过三种关键技术实现这些增益:低延迟解码同步、资源高效的预填充共址以及负载感知的卸载调度。实验结果表明,与最先进的系统相比,Adrenaline在预填充实例中实现了2.28倍更高的内存容量和2.07倍更好的内存带宽利用率,解码实例的计算利用率提高了1.67倍,整体推理吞吐量提高了1.68倍。
🔬 方法详解
问题定义:现有LLM Serving系统为了避免预填充和解码阶段的性能干扰,通常采用预填充-解码解耦的策略,将两个阶段部署在不同的机器上。然而,这种方法导致了严重的资源利用不均衡。预填充阶段计算密集,但内存利用率低;解码阶段内存密集,但计算利用率低。如何有效地利用这些闲置资源,提高整体系统的吞吐量,是本文要解决的核心问题。
核心思路:Adrenaline的核心思路是利用解码阶段注意力计算的内存密集特性,将其部分计算卸载到预填充实例上。由于预填充实例的内存利用率较低,因此可以有效地利用这些闲置的内存资源。同时,通过卸载部分计算,可以增加解码阶段的批处理大小,从而提高解码实例的计算利用率。这种解耦和卸载的策略,能够平衡预填充和解码阶段的资源利用,从而提高整体系统的性能。
技术框架:Adrenaline的整体框架包含三个主要模块:低延迟解码同步、资源高效的预填充共址和负载感知的卸载调度。首先,低延迟解码同步保证了卸载计算的及时性和准确性。其次,资源高效的预填充共址策略允许预填充实例在执行自身任务的同时,高效地处理卸载的注意力计算。最后,负载感知的卸载调度根据预填充和解码实例的负载情况,动态地调整卸载的计算量,从而实现最佳的性能。
关键创新:Adrenaline的关键创新在于注意力解耦和卸载机制。与传统的预填充-解码解耦不同,Adrenaline并没有完全隔离两个阶段,而是通过解耦解码阶段的注意力计算,并将其卸载到预填充实例上,实现了资源共享和优化。这种方法能够有效地利用闲置资源,提高整体系统的吞吐量。
关键设计:Adrenaline的关键设计包括:1)低延迟解码同步机制,采用优化的通信协议和数据结构,保证卸载计算的及时性;2)资源高效的预填充共址策略,通过合理的任务调度和资源分配,避免卸载计算对预填充任务的性能产生负面影响;3)负载感知的卸载调度算法,根据预填充和解码实例的负载情况,动态地调整卸载的计算量,从而实现最佳的性能。具体的参数设置和算法细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
Adrenaline在实验中表现出色,与最先进的系统相比,预填充实例的内存容量利用率提高了2.28倍,内存带宽利用率提高了2.07倍,解码实例的计算利用率提高了1.67倍,整体推理吞吐量提高了1.68倍。这些数据表明,Adrenaline能够有效地提高LLM Serving的资源利用率和性能。
🎯 应用场景
Adrenaline技术可应用于各种需要大规模LLM Serving的场景,例如在线问答、文本生成、机器翻译等。通过提高资源利用率和吞吐量,Adrenaline可以降低LLM Serving的成本,并提升用户体验。未来,该技术有望进一步扩展到其他类型的AI模型和服务中,为AI应用的普及和发展做出贡献。
📄 摘要(原文)
In large language model (LLM) serving systems, executing each request consists of two phases: the compute-intensive prefill phase and the memory-intensive decoding phase. To prevent performance interference between the two phases, current LLM serving systems typically adopt prefill-decoding disaggregation, where the two phases are split across separate machines. However, we observe this approach leads to significant resource underutilization. Specifically, prefill instances that are compute-intensive suffer from low memory utilization, while decoding instances that are memory-intensive experience low compute utilization. To address this problem, this paper proposes Adrenaline, an attention disaggregation and offloading mechanism designed to enhance resource utilization and performance in LLM serving systems. Adrenaline's key innovation lies in disaggregating part of the attention computation in the decoding phase and offloading them to prefill instances. The memory-bound nature of decoding-phase attention computation inherently enables an effective offloading strategy, yielding two complementary advantages: 1) improved memory capacity and bandwidth utilization in prefill instances, and 2) increased decoding batch sizes that enhance compute utilization in decoding instances, collectively boosting overall system performance. Adrenaline achieves these gains through three key techniques: low-latency decoding synchronization, resource-efficient prefill colocation, and load-aware offloading scheduling. Experimental results show that Adrenaline achieves 2.28x higher memory capacity and 2.07x better memory bandwidth utilization in prefill instances, up to 1.67x improvements in compute utilization for decoding instances, and 1.68x higher overall inference throughput compared to state-of-the-art systems.