Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving

📄 arXiv: 2602.24044v1 📥 PDF

作者: Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral

分类: cs.DC, cs.AI, cs.CL, cs.LG

发布日期: 2026-02-27

备注: journal extension of the workshop paper titled as "A data-driven ml approach for maximizing performance in llm-adapter serving"


💡 一句话要点

提出一种数据驱动的GPU优化方法,用于分布式LLM适配器服务,提升资源效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM适配器 分布式服务 GPU优化 数字孪生 机器学习 资源效率 性能预测

📋 核心要点

  1. 现有分布式LLM适配器服务主要关注延迟优化,忽略了吞吐量最大化带来的资源效率提升。
  2. 提出一种数据驱动的优化流程,通过数字孪生、机器学习和贪婪算法,实现GPU资源的高效利用。
  3. 实验表明,该流程能显著减少维持目标工作负载所需的GPU数量,提升GPU效率,且可扩展至其他优化目标。

📝 摘要(中文)

大型语言模型(LLM)适配器实现了低成本的模型专业化,但在分布式服务系统中,由于需要同时托管数百个适配器,引入了复杂的缓存和调度挑战。现有工作主要集中在延迟最小化上,而通过吞吐量最大化实现的资源效率仍未得到充分探索。本文提出了一种数据驱动的流程,针对给定的工作负载,计算出一种适配器放置方案,以最少的GPU数量服务该工作负载,同时避免请求饥饿和GPU内存错误。为此,该方法利用从真实服务行为中学习到的准确性能预测,确定每个GPU上可实现的最大可行吞吐量。所提出的流程集成了三个组件:(i)为LLM适配器服务量身定制的数字孪生(DT),(ii)在DT生成的数据上训练的精馏机器学习(ML)模型,以及(iii)利用基于ML的性能估计来最大化GPU效率的贪婪放置算法。DT以高保真度模拟真实系统动态,在可预测和不可预测的工作负载下,吞吐量估计误差低于5%,执行速度比完整的LLM基准测试快90倍。学习到的ML模型进一步加速了性能估计,同时精度略有下降,从而实现了可扩展的优化。实验结果表明,该流程通过减少维持目标工作负载所需的GPU数量,显著提高了GPU效率。除了GPU效率之外,该流程还可以适应替代目标,例如延迟最小化,突出了其在未来大规模LLM服务基础设施中的多功能性。

🔬 方法详解

问题定义:论文旨在解决分布式LLM适配器服务中,如何以最少的GPU资源满足给定的工作负载需求,同时避免请求饥饿和GPU内存错误的问题。现有方法主要关注延迟优化,缺乏对GPU资源效率的有效管理,导致资源浪费。

核心思路:论文的核心思路是利用数据驱动的方法,通过构建数字孪生(Digital Twin)模拟真实系统的运行状态,并基于模拟数据训练机器学习模型,从而准确预测不同适配器放置方案下的GPU性能。然后,利用这些性能预测指导适配器的放置,最终实现GPU资源的高效利用。

技术框架:该流程包含三个主要组件:(1) 数字孪生(DT):用于模拟LLM适配器服务的真实系统动态,生成训练数据。(2) 机器学习(ML)模型:基于DT生成的数据进行训练,用于快速准确地预测不同适配器放置方案下的GPU性能。(3) 贪婪放置算法:利用ML模型提供的性能估计,以贪婪的方式选择适配器放置方案,最大化GPU效率。

关键创新:该论文的关键创新在于将数字孪生、机器学习和贪婪算法相结合,构建了一个数据驱动的GPU优化流程。与传统的基于规则或启发式的优化方法相比,该方法能够更准确地预测系统性能,并根据实际工作负载进行自适应优化。此外,利用数字孪生生成训练数据,避免了在真实系统上进行大量实验的成本。

关键设计:数字孪生需要精确模拟LLM适配器服务的各个方面,包括请求到达模式、适配器大小、GPU资源分配等。机器学习模型需要选择合适的模型结构和训练算法,以实现高精度的性能预测。贪婪放置算法需要设计合适的评估指标,例如GPU利用率、请求延迟等,并根据这些指标选择最优的适配器放置方案。论文中使用了蒸馏后的机器学习模型,在精度略有下降的情况下,显著提升了性能预测的速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该流程能够显著提高GPU效率,减少维持目标工作负载所需的GPU数量。数字孪生能够以低于5%的吞吐量估计误差模拟真实系统动态,并且执行速度比完整的LLM基准测试快90倍。机器学习模型在加速性能估计的同时,精度略有下降,但仍然能够实现可扩展的优化。

🎯 应用场景

该研究成果可应用于大规模LLM服务基础设施,帮助云服务提供商更有效地管理GPU资源,降低运营成本。通过优化适配器放置,可以提高GPU利用率,减少资源浪费,并提升服务质量。此外,该方法还可以扩展到其他类型的AI模型服务,具有广泛的应用前景。

📄 摘要(原文)

Large Language Model (LLM) adapters enable low-cost model specialization, but introduce complex caching and scheduling challenges in distributed serving systems where hundreds of adapters must be hosted concurrently. While prior work has largely focused on latency minimization, resource efficiency through throughput maximization remains underexplored. This paper presents a data-driven pipeline that, for a given workload, computes an adapter placement that serves the workload with the minimum number of GPUs while avoiding request starvation and GPU memory errors. To that end, the approach identifies the maximum feasible throughput attainable on each GPU by leveraging accurate performance predictions learned from real serving behavior. The proposed pipeline integrates three components: (i) a Digital Twin (DT) tailored to LLM-adapter serving, (ii) a distilled machine learning (ML) model trained on DT-generated data, and (iii) a greedy placement algorithm that exploits ML-based performance estimates to maximize GPU efficiency. The DT emulates real system dynamics with high fidelity, achieving below 5% throughput estimation error while executing up to 90 times faster than full LLM benchmarking across both predictable and unpredictable workloads. The learned ML models further accelerate performance estimation with marginal accuracy degradation, enabling scalable optimization. Experimental results demonstrate that the pipeline substantially improves GPU efficiency by reducing the number of GPUs required to sustain target workloads. Beyond GPU efficiency, the pipeline can be adapted to alternative objectives, such as latency minimization, highlighting its versatility for future large-scale LLM serving infrastructures.