LeMix: Unified Scheduling for LLM Training and Inference on Multi-GPU Systems

📄 arXiv: 2507.21276v1 📥 PDF

作者: Yufei Li, Zexin Li, Yinglun Zhu, Cong Liu

分类: cs.AI, cs.CL, cs.DC

发布日期: 2025-07-28

备注: Accepted by RTSS 2025


💡 一句话要点

LeMix:多GPU系统上LLM训练与推理的统一调度系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM训练 LLM推理 GPU调度 资源管理 协同优化 动态调度 多GPU系统

📋 核心要点

  1. 现有LLM部署中,推理和服务通常分离,导致GPU资源利用率低和对新数据适应延迟。
  2. LeMix通过集成离线分析、执行预测和运行时调度,动态调整资源分配,实现训练和推理的协同。
  3. 实验表明,LeMix显著提升了吞吐量(高达3.53倍),降低了推理损失(高达0.61倍),并提高了响应时间SLO。

📝 摘要(中文)

大型语言模型(LLM)的现代部署通常涉及推理服务和持续再训练,以适应不断发展的数据和用户反馈。常见的做法是将这些工作负载分离到不同的服务器上,并在隔离的阶段中进行,导致严重的效率低下(例如,GPU空闲)以及在分布式环境中延迟适应新数据。我们的经验分析表明,这些低效率源于服务期间的动态请求到达以及pipeline-parallel训练中的工作负载异构性。为了解决这些挑战,我们提出了LeMix,一个用于共同定位和管理并发LLM服务和训练工作负载的系统。LeMix集成了离线分析、执行预测机制和运行时调度,以根据工作负载特征和系统条件动态调整资源分配。通过理解跨共享节点的特定于任务的行为和共同执行干扰,LeMix提高了利用率和服务质量,而不会影响服务响应能力。我们的评估表明,与传统的独立设置相比,LeMix将吞吐量提高了高达3.53倍,将推理损失降低了高达0.61倍,并实现了高达2.12倍的更高响应时间SLO。据我们所知,这是第一个发现并利用联合LLM推理和训练机会的工作,为在生产环境中更高效地部署LLM铺平了道路。

🔬 方法详解

问题定义:现有LLM的部署通常将推理服务和持续训练分离在不同的服务器上,导致GPU资源利用率低下,并且无法及时地根据新数据进行调整。这种分离部署方式的痛点在于无法充分利用GPU资源,并且训练和推理之间存在明显的延迟,影响了LLM的实时性和准确性。

核心思路:LeMix的核心思路是将LLM的推理服务和训练工作负载共同部署在同一组GPU资源上,并通过动态调度算法来优化资源分配,从而提高GPU的利用率,并减少训练和推理之间的延迟。LeMix通过预测任务的执行时间和资源需求,以及考虑任务之间的干扰,来做出最优的调度决策。

技术框架:LeMix的整体架构包含以下几个主要模块:1) 离线分析模块:用于分析LLM的训练和推理任务的资源需求和执行时间。2) 执行预测模块:用于预测任务在不同资源分配下的执行时间和资源消耗。3) 运行时调度模块:根据执行预测模块的输出,动态地调整资源分配,以优化GPU的利用率和服务质量。4) 资源管理模块:负责管理GPU资源,并根据调度决策进行分配和回收。

关键创新:LeMix最重要的技术创新点在于其动态调度算法,该算法能够根据任务的特性和系统状态,实时地调整资源分配,从而实现训练和推理的协同优化。与传统的静态资源分配方法相比,LeMix能够更好地适应动态变化的工作负载,并提高GPU的利用率。此外,LeMix还考虑了任务之间的干扰,避免了因资源竞争而导致的性能下降。

关键设计:LeMix的关键设计包括:1) 使用离线分析来获取任务的资源需求和执行时间特征。2) 使用执行预测模型来预测任务在不同资源分配下的性能。3) 设计了一种基于优先级的调度算法,该算法考虑了任务的优先级、资源需求和执行时间。4) 实现了一种资源隔离机制,以避免任务之间的干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LeMix的实验结果表明,与传统的独立部署方式相比,LeMix能够将吞吐量提高高达3.53倍,将推理损失降低高达0.61倍,并实现高达2.12倍的更高响应时间SLO。这些结果表明,LeMix能够显著提高LLM的部署效率和服务质量,为LLM的广泛应用提供了有力的支持。

🎯 应用场景

LeMix适用于需要持续训练和实时推理的LLM部署场景,例如在线客服、智能助手、内容生成等。通过提高GPU利用率和降低推理延迟,LeMix可以显著降低LLM的部署成本,并提升用户体验。未来,LeMix可以扩展到支持更多类型的AI模型和异构计算平台,为AI应用的广泛部署提供更高效的解决方案。

📄 摘要(原文)

Modern deployment of large language models (LLMs) frequently involves both inference serving and continuous retraining to stay aligned with evolving data and user feedback. Common practices separate these workloads onto distinct servers in isolated phases, causing substantial inefficiencies (e.g., GPU idleness) and delayed adaptation to new data in distributed settings. Our empirical analysis reveals that these inefficiencies stem from dynamic request arrivals during serving and workload heterogeneity in pipeline-parallel training. To address these challenges, we propose LeMix, a system for co-locating and managing concurrent LLM serving and training workloads. LeMix integrates offline profiling, execution prediction mechanisms, and runtime scheduling to dynamically adapt resource allocation based on workload characteristics and system conditions. By understanding task-specific behaviors and co-execution interference across shared nodes, LeMix improves utilization and serving quality without compromising serving responsiveness. Our evaluation shows that LeMix improves throughput by up to 3.53x, reduces inference loss by up to 0.61x, and delivers up to 2.12x higher response time SLO attainment over traditional separate setups. To our knowledge, this is the first work to uncover and exploit the opportunities of joint LLM inference and training, paving the way for more resource-efficient deployment of LLMs in production environments.