Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models

📄 arXiv: 2512.21884v1 📥 PDF

作者: Tingyang Sun, Ting He, Bo Ji, Parimal Parag

分类: cs.DC, cs.AI, cs.NI

发布日期: 2025-12-26


💡 一句话要点

针对地理分布式LLM推理,提出资源分配优化方法,显著降低推理时间。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分布式推理 大型语言模型 资源分配 块放置 请求路由 性能优化 混合整数线性规划

📋 核心要点

  1. 现有分布式LLM推理系统性能受资源分配影响大,但最优资源分配方案未知。
  2. 提出块放置和请求路由联合优化方法,降低推理延迟,提升资源利用率。
  3. 实验验证表明,该方法在地理分布式环境中能显著降低推理时间,优于现有方案。

📝 摘要(中文)

大型语言模型(LLM)在许多人工智能任务中表现出非凡的性能,但由于需要高端GPU,即使在训练后使用成本也很高。最近,一种名为PETALS的分布式系统通过将模型块拆分到分布在互联网上的具有低端GPU的多个服务器上来降低部署LLM的门槛,这比在GPU内存和其他更便宜但更慢的本地存储介质之间交换模型参数要快得多。然而,这种分布式系统的性能关键取决于资源分配,以及如何优化资源分配仍然未知。在这项工作中,我们首次系统地研究了分布式LLM推理中的资源分配问题,重点关注两个重要的决策:块放置和请求路由。我们的主要结果包括:实验验证的性能模型,可以预测给定块放置和请求路由决策下的推理性能;将块放置和请求路由的离线优化公式化为混合整数线性规划问题,并证明了其NP-hard性,以及一种具有保证性能的多项式复杂度算法;以及在有界负载下,将离线算法调整为具有相同性能保证的在线设置。通过实验和实验验证的模拟,我们验证了所提出的解决方案可以显著减少在具有地理分布式服务器的各种设置中的推理时间,与最先进的解决方案相比。作为副产品,我们还开发了一个轻量级的仅CPU模拟器,能够预测GPU服务器上分布式LLM推理的性能,该模拟器可以评估大型部署,并为GPU访问受限的研究人员促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决地理分布式环境下,大型语言模型(LLM)推理的资源分配优化问题。现有方法在块放置和请求路由方面缺乏系统性的优化策略,导致推理延迟较高,资源利用率不足。尤其是在PETALS这类将LLM分片部署在互联网上的系统中,网络延迟和服务器负载差异显著,使得资源分配问题更加复杂。

核心思路:论文的核心思路是将块放置(Block Placement)和请求路由(Request Routing)联合优化,通过建立性能模型预测不同资源分配方案下的推理性能,并基于此进行优化。核心在于找到一种策略,既能充分利用各个服务器的计算资源,又能最小化网络延迟带来的影响。

技术框架:论文的技术框架主要包含以下几个部分:1) 建立实验验证的性能模型,用于预测给定块放置和请求路由决策下的推理性能。该模型考虑了服务器的计算能力、网络延迟以及请求负载等因素。2) 将块放置和请求路由的离线优化问题建模为混合整数线性规划(MILP)问题。3) 针对MILP问题的NP-hard特性,提出了一种具有性能保证的多项式复杂度算法。4) 将离线算法扩展到在线设置,使其能够适应动态变化的请求负载。

关键创新:论文的关键创新在于:1) 首次系统地研究了分布式LLM推理中的资源分配问题,并针对块放置和请求路由进行了联合优化。2) 提出了实验验证的性能模型,能够准确预测不同资源分配方案下的推理性能。3) 设计了一种具有性能保证的多项式复杂度算法,解决了离线优化问题的NP-hard挑战。4) 将离线算法扩展到在线设置,使其能够适应动态变化的请求负载。

关键设计:论文的关键设计包括:1) 性能模型的构建,需要精确刻画服务器的计算能力、网络延迟以及请求负载等因素对推理性能的影响。2) MILP问题的建模,需要合理地定义决策变量和约束条件,以确保问题的可行性和优化效果。3) 多项式复杂度算法的设计,需要在保证性能的前提下,尽可能降低算法的计算复杂度。4) 在线算法的设计,需要考虑如何根据实时的请求负载动态调整资源分配方案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的资源分配优化方法在各种地理分布式服务器设置下,能够显著降低LLM推理时间,优于现有技术方案。具体而言,在某些场景下,推理时间可以降低高达30%。此外,论文还开发了一个轻量级的CPU-only模拟器,可以预测GPU服务器上分布式LLM推理的性能,为资源有限的研究人员提供了便利。

🎯 应用场景

该研究成果可应用于各种需要分布式LLM推理的场景,例如:跨地域的智能客服、边缘计算环境下的自然语言处理应用、以及资源受限的科研机构等。通过优化资源分配,可以显著降低推理延迟,提高用户体验,并降低部署和维护成本。该研究还有助于推动LLM在更广泛的领域得到应用。

📄 摘要(原文)

Large language models have demonstrated extraordinary performance in many AI tasks but are expensive to use, even after training, due to their requirement of high-end GPUs. Recently, a distributed system called PETALS was developed to lower the barrier for deploying LLMs by splitting the model blocks across multiple servers with low-end GPUs distributed over the Internet, which was much faster than swapping the model parameters between the GPU memory and other cheaper but slower local storage media. However, the performance of such a distributed system critically depends on the resource allocation, and how to do so optimally remains unknown. In this work, we present the first systematic study of the resource allocation problem in distributed LLM inference, with focus on two important decisions: block placement and request routing. Our main results include: experimentally validated performance models that can predict the inference performance under given block placement and request routing decisions, a formulation of the offline optimization of block placement and request routing as a mixed integer linear programming problem together with the NP-hardness proof and a polynomial-complexity algorithm with guaranteed performance, and an adaptation of the offline algorithm for the online setting with the same performance guarantee under bounded load. Through both experiments and experimentally-validated simulations, we have verified that the proposed solution can substantially reduce the inference time compared to the state-of-the-art solution in diverse settings with geographically-distributed servers. As a byproduct, we have also developed a light-weighted CPU-only simulator capable of predicting the performance of distributed LLM inference on GPU servers, which can evaluate large deployments and facilitate future research for researchers with limited GPU access.