KVDirect: Distributed Disaggregated LLM Inference

作者: Shiyang Chen, Rain Jiang, Dezhi Yu, Jinlai Xu, Mengyuan Chao, Fanlong Meng, Chenyu Jiang, Wei Xu, Hang Liu

分类: cs.DC, cs.LG, cs.PF

发布日期: 2024-12-13

💡 一句话要点

KVDirect：实现分布式解耦LLM推理，提升资源利用率与服务能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 分布式推理 解耦推理 LLM KV缓存 GPU通信 张量通信 资源调度

📋 核心要点

现有解耦LLM推理系统受限于单节点，无法充分利用分布式资源，导致资源分配不灵活和服务容量受限。
KVDirect通过优化KV缓存传输，采用张量中心通信机制和自定义通信库，实现了高效的分布式解耦LLM推理。
实验结果表明，KVDirect在多种工作负载下，相比基线系统，每次请求的延迟降低了55%，显著提升了性能。

📝 摘要（中文）

大型语言模型（LLM）已成为众多应用的新基础，正以风暴之势重塑人类社会。解耦推理（将预填充和解码阶段分离）是提高硬件利用率和服务质量的一种有前景的方法。然而，由于节点间通信效率低下，现有系统将解耦推理限制在单个节点上，限制了资源分配的灵活性并降低了服务容量。本文介绍了KVDirect，它优化了KV缓存传输，从而实现分布式解耦LLM推理。KVDirect通过以下贡献实现这一点。首先，我们提出了一种新颖的以张量为中心的通信机制，该机制减少了传统分布式GPU系统中的同步开销。其次，我们设计了一个自定义通信库，以支持动态GPU资源调度和高效的KV缓存传输。第三，我们引入了一种基于拉取的KV缓存传输策略，该策略减少了GPU资源空闲并改善了延迟。最后，我们将KVDirect实现为一个开源LLM推理框架。我们的评估表明，在相同的资源约束下，KVDirect在不同的工作负载下，与基线相比，每次请求的延迟降低了55%。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）推理系统，特别是解耦推理系统，在分布式环境下存在节点间通信效率低下的问题。这限制了解耦推理的优势，使其无法充分利用分布式GPU集群的资源，导致资源分配不灵活，服务容量受限，以及整体推理延迟较高。

核心思路：KVDirect的核心思路是通过优化KV缓存的传输，实现高效的分布式解耦LLM推理。它采用了一种以张量为中心的通信机制，减少了传统分布式GPU系统中的同步开销。此外，它还设计了一个自定义通信库，以支持动态GPU资源调度和高效的KV缓存传输。

技术框架：KVDirect的整体框架包含以下几个关键模块：1) 张量中心通信机制：用于高效地在GPU节点间传输KV缓存张量。2) 自定义通信库：提供动态GPU资源调度和KV缓存传输的底层支持。3) 基于拉取的KV缓存传输策略：减少GPU资源空闲，提高资源利用率。整个流程包括预填充阶段和解码阶段，KV缓存需要在节点间高效传递。

关键创新：KVDirect的关键创新在于其张量中心通信机制和基于拉取的KV缓存传输策略。传统的分布式GPU系统通常采用参数服务器架构，同步开销较大。KVDirect通过直接传输KV缓存张量，减少了同步开销。基于拉取的策略则避免了推送策略可能导致的资源浪费和延迟。

关键设计：KVDirect的关键设计包括：1) 张量分块策略：将KV缓存张量分割成更小的块，以便更高效地传输。2) 通信协议优化：自定义通信协议，减少通信开销。3) 动态资源调度算法：根据负载情况动态调整GPU资源的分配。

📊 实验亮点

实验结果表明，KVDirect在不同的工作负载下，与基线系统相比，每次请求的延迟降低了55%。这一显著的性能提升证明了KVDirect在分布式解耦LLM推理方面的有效性。此外，KVDirect的开源实现也为研究人员和开发者提供了一个有价值的平台，可以进一步探索和优化分布式LLM推理技术。

🎯 应用场景

KVDirect可应用于各种需要高性能LLM推理的场景，例如在线对话系统、智能客服、内容生成等。通过提高资源利用率和服务容量，KVDirect能够降低LLM推理的成本，并支持更大规模的并发请求。未来，该技术有望推动LLM在更多领域的应用，并促进人工智能的普及。

📄 摘要（原文）

Large Language Models (LLMs) have become the new foundation for many applications, reshaping human society like a storm. Disaggregated inference, which separates prefill and decode stages, is a promising approach to improving hardware utilization and service quality. However, due to inefficient inter-node communication, existing systems restrict disaggregated inference to a single node, limiting resource allocation flexibility and reducing service capacity. This paper introduces KVDirect, which optimizes KV cache transfer to enable a distributed disaggregated LLM inference. KVDirect achieves this through the following contributions. First, we propose a novel tensor-centric communication mechanism that reduces the synchronization overhead in traditional distributed GPU systems. Second, we design a custom communication library to support dynamic GPU resource scheduling and efficient KV cache transfer. Third, we introduce a pull-based KV cache transfer strategy that reduces GPU resource idling and improves latency. Finally, we implement KVDirect as an open-source LLM inference framework. Our evaluation demonstrates that KVDirect reduces per-request latency by 55% compared to the baseline across diverse workloads under the same resource constraints.

KVDirect: Distributed Disaggregated LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理