Hybrid Offline-online Scheduling Method for Large Language Model Inference Optimization

作者: Bowen Pang, Kai Li, Ruifeng She, Feifan Wang

分类: cs.DC, cs.AI, cs.AR, cs.LG

发布日期: 2025-02-14

💡 一句话要点

提出混合离线-在线调度方法，优化大语言模型推理服务系统吞吐量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理优化 离线调度 在线调度 混合整数规划 硬件利用率 系统吞吐量

📋 核心要点

现有大语言模型推理服务系统面临硬件利用率不足和吞吐量受限的挑战，难以充分发挥硬件性能。
提出一种混合离线-在线调度方法，离线优化大规模任务分配，在线动态调整任务执行顺序，提升硬件利用率。
实验结果表明，该方法能有效提升系统利用率，降低总推理时间，在100个案例中平均提升利用率8.0%。

📝 摘要（中文）

随着大型语言模型（LLMs）的发展，优化硬件使用率和提高吞吐量变得越来越重要。本文研究了部署LLMs的serving系统的推理优化问题。为了优化系统吞吐量并最大化硬件利用率，我们将推理优化问题建模为一个混合整数规划（MIP）模型，并提出一种混合离线-在线方法作为解决方案。离线方法通过引入最小化完成时间的装箱问题来改进大规模推理系统，并提供了一种理论下界计算方法。然后，我们提出了一种在线排序和抢占式调度方法，以更好地利用硬件。在在线迭代调度过程中，应用拉格朗日方法来评估在每次迭代中插入预填充阶段与解码阶段的成本效益，并动态确定何时抢占解码任务并插入预填充任务。使用来自LLaMA-65B模型和GSM8K数据集的真实世界数据进行的实验表明，系统利用率从80.2%提高到89.1%，总推理时间从201.00秒减少到190.58秒。一项包含100个案例的研究表明，我们的方法始终优于基线方法，并且平均提高了8.0%的利用率。最后，我们讨论了潜在的未来扩展，包括随机建模、基于强化学习的调度器以及用于系统吞吐量和硬件利用率的动态决策策略。

🔬 方法详解

问题定义：论文旨在解决大语言模型推理服务系统中硬件利用率低和吞吐量受限的问题。现有方法通常难以在保证低延迟的同时，充分利用硬件资源，尤其是在面对大规模并发推理请求时，资源分配和调度策略的优化空间巨大。

核心思路：论文的核心思路是将推理任务的调度分解为离线和在线两个阶段。离线阶段通过全局优化，确定任务的初始分配方案，解决大规模任务的粗粒度调度问题。在线阶段则根据系统运行时的实际情况，动态调整任务的执行顺序，实现细粒度的资源优化，从而提高硬件利用率和系统吞吐量。

技术框架：整体框架包含离线调度和在线调度两个主要模块。离线调度模块将推理优化问题建模为混合整数规划（MIP）问题，并引入最小化完成时间的装箱问题进行求解，确定初始的任务分配方案。在线调度模块则采用排序和抢占式调度策略，利用拉格朗日方法评估预填充阶段和解码阶段的成本效益，动态调整任务执行顺序。

关键创新：该方法最大的创新在于混合离线-在线的调度策略。离线调度保证了全局优化的方向，在线调度则实现了对系统状态的实时响应，二者结合能够更好地适应动态变化的推理负载。此外，利用拉格朗日方法动态评估预填充和解码阶段的成本效益，也是一个重要的创新点。

关键设计：离线调度中，混合整数规划模型的构建和求解，以及最小化完成时间的装箱问题的引入是关键设计。在线调度中，拉格朗日乘子的选择和更新策略，以及抢占式调度的触发条件是关键设计。此外，预填充阶段和解码阶段的成本效益评估函数的设计也至关重要。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够有效提升大语言模型推理服务系统的性能。具体而言，系统利用率从80.2%提高到89.1%，总推理时间从201.00秒减少到190.58秒。在包含100个案例的实验中，该方法始终优于基线方法，并且平均提高了8.0%的利用率。这些数据表明，该方法在实际应用中具有显著的优势。

🎯 应用场景

该研究成果可应用于各种需要部署大语言模型的在线服务系统，例如智能客服、文本生成、机器翻译等。通过优化硬件利用率和提高吞吐量，可以降低服务成本，提升用户体验，并为更大规模的语言模型部署提供技术支持。未来，该方法可以扩展到其他类型的深度学习模型推理服务系统。

📄 摘要（原文）

With the development of large language models (LLMs), it has become increasingly important to optimize hardware usage and improve throughput. In this paper, we study the inference optimization of the serving system that deploys LLMs. To optimize system throughput and maximize hardware utilization, we formulate the inference optimization problem as a mixed-integer programming (MIP) model and propose a hybrid offline-online method as solution. The offline method improves large-scale inference systems by introducing a Minimizing Makespan Bin Packing Problem. We further provide a theoretical lower bound computation method. Then, we propose an online sorting and preemptive scheduling method to better utilize hardware. In the online iteration scheduling process, a Lagrangian method is applied to evaluate the cost efficiency of inserting prefill stages versus decode stages at each iteration and dynamically determine when to preempt decoding tasks and insert prefill tasks. Experiments using real-world data from the LLaMA-65B model and the GSM8K dataset demonstrate that system utilization improves from 80.2% to 89.1%, and the total inference time decreases from 201.00 to 190.58 seconds. A 100-cases study shows that our method consistently outperforms the baseline method and improves the utilization rate by 8.0% on average. Finally, we discuss potential future extensions, including stochastic modeling, reinforcement learning-based schedulers, and dynamic decision-making strategies for system throughput and hardware utilization.

Hybrid Offline-online Scheduling Method for Large Language Model Inference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理