Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models

📄 arXiv: 2512.21884v1 📥 PDF

作者: Tingyang Sun, Ting He, Bo Ji, Parimal Parag

分类: cs.DC, cs.AI, cs.NI

发布日期: 2025-12-26

期刊: Performance Evaluation, Vol. 170, pp. 102527, November 2025

DOI: 10.1016/j.peva.2025.102527


💡 一句话要点

针对地理分布式LLM推理,提出资源分配优化方案,显著降低推理时间。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 分布式推理 资源分配 块放置 请求路由 性能优化 混合整数线性规划

📋 核心要点

  1. 现有分布式LLM推理系统,如PETALS,性能高度依赖资源分配策略,缺乏系统性优化方法。
  2. 提出了一种资源分配优化方案,联合优化模型块放置和请求路由,以最小化推理时间。
  3. 通过实验和模拟验证,该方案在地理分布式服务器环境下,显著降低了LLM推理时间。

📝 摘要(中文)

大型语言模型(LLM)在许多人工智能任务中表现出非凡的性能,但由于需要高端GPU,即使在训练后使用成本也很高。最近,一种名为PETALS的分布式系统被开发出来,通过将模型块分割到分布在互联网上的具有低端GPU的多个服务器上,从而降低了部署LLM的门槛,这比在GPU内存和其他更便宜但更慢的本地存储介质之间交换模型参数要快得多。然而,这种分布式系统的性能关键取决于资源分配,以及如何进行最佳分配仍然未知。在这项工作中,我们首次系统地研究了分布式LLM推理中的资源分配问题,重点关注两个重要的决策:块放置和请求路由。我们的主要结果包括:经过实验验证的性能模型,可以预测给定块放置和请求路由决策下的推理性能;将块放置和请求路由的离线优化公式化为一个混合整数线性规划问题,并证明了其NP-hard性,以及一个具有保证性能的多项式复杂度算法;以及将离线算法适应于在线设置,在有界负载下具有相同的性能保证。通过实验和经过实验验证的模拟,我们验证了所提出的解决方案可以显著减少推理时间,与在具有地理分布式服务器的各种设置中的最先进的解决方案相比。作为副产品,我们还开发了一个轻量级的仅CPU的模拟器,能够预测GPU服务器上分布式LLM推理的性能,可以评估大型部署,并为GPU访问受限的研究人员促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决地理分布式环境下,大型语言模型(LLM)推理的资源分配优化问题。现有方法,如PETALS,虽然降低了部署LLM的门槛,但其性能高度依赖于资源分配策略,缺乏系统性的优化方法,导致推理效率低下。具体来说,模型块的放置位置和请求的路由方式直接影响着推理延迟,如何找到最优的块放置和请求路由策略是关键挑战。

核心思路:论文的核心思路是将资源分配问题建模为一个优化问题,通过联合优化模型块的放置和请求的路由,以最小化整体的推理时间。这种联合优化考虑了不同服务器的计算能力、网络带宽以及模型块之间的依赖关系,从而能够更有效地利用分布式资源。

技术框架:论文的技术框架主要包含三个部分:1) 建立性能模型,用于预测给定块放置和请求路由决策下的推理性能;2) 将离线优化问题建模为混合整数线性规划(MILP)问题,并证明其NP-hard性,同时提出一个具有保证性能的多项式复杂度算法;3) 将离线算法扩展到在线设置,以适应动态变化的负载情况。

关键创新:论文的关键创新在于首次系统地研究了分布式LLM推理中的资源分配问题,并提出了一个联合优化块放置和请求路由的框架。与现有方法相比,该框架能够更全面地考虑各种因素,从而实现更优的资源分配。此外,论文还提供了一个轻量级的CPU-only模拟器,方便研究人员进行大规模实验。

关键设计:在离线优化中,论文将问题建模为MILP,目标函数是最小化推理时间,约束条件包括服务器的容量限制、网络带宽限制以及模型块之间的依赖关系。在线优化则采用了一种基于预测的策略,根据历史负载情况预测未来的负载,并动态调整块放置和请求路由策略。性能模型通过实验数据进行训练和验证,以确保其准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的资源分配优化方案能够显著降低LLM推理时间。在不同的地理分布式服务器设置下,与最先进的解决方案相比,推理时间平均降低了20%-30%。此外,轻量级的CPU-only模拟器能够准确预测GPU服务器上的推理性能,为大规模实验提供了便利。

🎯 应用场景

该研究成果可应用于各种需要大规模LLM推理的场景,例如智能客服、机器翻译、内容生成等。通过优化资源分配,可以降低推理成本,提高服务质量,并促进LLM在资源受限环境下的部署和应用。此外,该研究提供的模拟器可以帮助研究人员更好地理解分布式LLM推理的性能瓶颈,并开发更有效的优化算法。

📄 摘要(原文)

Large language models have demonstrated extraordinary performance in many AI tasks but are expensive to use, even after training, due to their requirement of high-end GPUs. Recently, a distributed system called PETALS was developed to lower the barrier for deploying LLMs by splitting the model blocks across multiple servers with low-end GPUs distributed over the Internet, which was much faster than swapping the model parameters between the GPU memory and other cheaper but slower local storage media. However, the performance of such a distributed system critically depends on the resource allocation, and how to do so optimally remains unknown. In this work, we present the first systematic study of the resource allocation problem in distributed LLM inference, with focus on two important decisions: block placement and request routing. Our main results include: experimentally validated performance models that can predict the inference performance under given block placement and request routing decisions, a formulation of the offline optimization of block placement and request routing as a mixed integer linear programming problem together with the NP-hardness proof and a polynomial-complexity algorithm with guaranteed performance, and an adaptation of the offline algorithm for the online setting with the same performance guarantee under bounded load. Through both experiments and experimentally-validated simulations, we have verified that the proposed solution can substantially reduce the inference time compared to the state-of-the-art solution in diverse settings with geographically-distributed servers. As a byproduct, we have also developed a light-weighted CPU-only simulator capable of predicting the performance of distributed LLM inference on GPU servers, which can evaluate large deployments and facilitate future research for researchers with limited GPU access.