KVDirect: Distributed Disaggregated LLM Inference
作者: Shiyang Chen, Rain Jiang, Dezhi Yu, Jinlai Xu, Mengyuan Chao, Fanlong Meng, Chenyu Jiang, Wei Xu, Hang Liu
分类: cs.DC, cs.LG, cs.PF
发布日期: 2024-12-13
💡 一句话要点
KVDirect:实现分布式解耦LLM推理,提升资源利用率与服务能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分布式推理 解耦推理 LLM KV缓存 GPU通信 张量通信 资源调度
📋 核心要点
- 现有解耦LLM推理系统受限于单节点,无法充分利用分布式资源,导致资源分配不灵活和服务容量受限。
- KVDirect通过优化KV缓存传输,采用张量中心通信机制和自定义通信库,实现了高效的分布式解耦LLM推理。
- 实验结果表明,KVDirect在多种工作负载下,相比基线系统,每次请求的延迟降低了55%,显著提升了性能。
📝 摘要(中文)
大型语言模型(LLM)已成为众多应用的新基础,正以风暴之势重塑人类社会。解耦推理(将预填充和解码阶段分离)是提高硬件利用率和服务质量的一种有前景的方法。然而,由于节点间通信效率低下,现有系统将解耦推理限制在单个节点上,限制了资源分配的灵活性并降低了服务容量。本文介绍了KVDirect,它优化了KV缓存传输,从而实现分布式解耦LLM推理。KVDirect通过以下贡献实现这一点。首先,我们提出了一种新颖的以张量为中心的通信机制,该机制减少了传统分布式GPU系统中的同步开销。其次,我们设计了一个自定义通信库,以支持动态GPU资源调度和高效的KV缓存传输。第三,我们引入了一种基于拉取的KV缓存传输策略,该策略减少了GPU资源空闲并改善了延迟。最后,我们将KVDirect实现为一个开源LLM推理框架。我们的评估表明,在相同的资源约束下,KVDirect在不同的工作负载下,与基线相比,每次请求的延迟降低了55%。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)推理系统,特别是解耦推理系统,在分布式环境下存在节点间通信效率低下的问题。这限制了解耦推理的优势,使其无法充分利用分布式GPU集群的资源,导致资源分配不灵活,服务容量受限,以及整体推理延迟较高。
核心思路:KVDirect的核心思路是通过优化KV缓存的传输,实现高效的分布式解耦LLM推理。它采用了一种以张量为中心的通信机制,减少了传统分布式GPU系统中的同步开销。此外,它还设计了一个自定义通信库,以支持动态GPU资源调度和高效的KV缓存传输。
技术框架:KVDirect的整体框架包含以下几个关键模块:1) 张量中心通信机制:用于高效地在GPU节点间传输KV缓存张量。2) 自定义通信库:提供动态GPU资源调度和KV缓存传输的底层支持。3) 基于拉取的KV缓存传输策略:减少GPU资源空闲,提高资源利用率。整个流程包括预填充阶段和解码阶段,KV缓存需要在节点间高效传递。
关键创新:KVDirect的关键创新在于其张量中心通信机制和基于拉取的KV缓存传输策略。传统的分布式GPU系统通常采用参数服务器架构,同步开销较大。KVDirect通过直接传输KV缓存张量,减少了同步开销。基于拉取的策略则避免了推送策略可能导致的资源浪费和延迟。
关键设计:KVDirect的关键设计包括:1) 张量分块策略:将KV缓存张量分割成更小的块,以便更高效地传输。2) 通信协议优化:自定义通信协议,减少通信开销。3) 动态资源调度算法:根据负载情况动态调整GPU资源的分配。
📊 实验亮点
实验结果表明,KVDirect在不同的工作负载下,与基线系统相比,每次请求的延迟降低了55%。这一显著的性能提升证明了KVDirect在分布式解耦LLM推理方面的有效性。此外,KVDirect的开源实现也为研究人员和开发者提供了一个有价值的平台,可以进一步探索和优化分布式LLM推理技术。
🎯 应用场景
KVDirect可应用于各种需要高性能LLM推理的场景,例如在线对话系统、智能客服、内容生成等。通过提高资源利用率和服务容量,KVDirect能够降低LLM推理的成本,并支持更大规模的并发请求。未来,该技术有望推动LLM在更多领域的应用,并促进人工智能的普及。
📄 摘要(原文)
Large Language Models (LLMs) have become the new foundation for many applications, reshaping human society like a storm. Disaggregated inference, which separates prefill and decode stages, is a promising approach to improving hardware utilization and service quality. However, due to inefficient inter-node communication, existing systems restrict disaggregated inference to a single node, limiting resource allocation flexibility and reducing service capacity. This paper introduces KVDirect, which optimizes KV cache transfer to enable a distributed disaggregated LLM inference. KVDirect achieves this through the following contributions. First, we propose a novel tensor-centric communication mechanism that reduces the synchronization overhead in traditional distributed GPU systems. Second, we design a custom communication library to support dynamic GPU resource scheduling and efficient KV cache transfer. Third, we introduce a pull-based KV cache transfer strategy that reduces GPU resource idling and improves latency. Finally, we implement KVDirect as an open-source LLM inference framework. Our evaluation demonstrates that KVDirect reduces per-request latency by 55% compared to the baseline across diverse workloads under the same resource constraints.