LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure
作者: Jaehong Cho, Hyunmin Choi, Guseul Heo, Jongse Park
分类: cs.DC, cs.AI
发布日期: 2026-02-26
备注: 12 pages, 10 figures
💡 一句话要点
LLMServingSim 2.0:异构和解耦LLM Serving基础设施的统一模拟器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Serving 系统模拟 异构计算 解耦架构 硬件-软件协同设计
📋 核心要点
- 现有LLM Serving模拟器难以在统一框架内建模异构硬件和解耦Serving技术,无法有效分析运行时硬件-软件交互。
- LLMServingSim 2.0通过将Serving决策和硬件行为嵌入运行时循环,实现交互感知的批处理、路由、内存和功耗建模。
- 实验验证表明,LLMServingSim 2.0能以平均0.97%的误差重现关键指标,为硬件创新和Serving系统设计提供桥梁。
📝 摘要(中文)
大型语言模型(LLM)Serving基础设施正朝着异构和解耦的方向发展。现代部署越来越多地集成各种加速器和近内存处理技术,引入了显著的硬件异构性。同时,系统软件越来越多地将计算、内存和模型组件分离到分布式资源中,以提高可扩展性和效率。因此,LLM Serving性能不再仅仅取决于硬件或软件的选择,而是取决于它们通过调度、数据移动和互连行为的运行时交互。然而,理解这些交互仍然具有挑战性,因为现有的模拟器缺乏在统一的、运行时驱动的框架内联合建模异构硬件和解耦Serving技术的能力。本文提出了LLMServingSim 2.0,一个统一的系统级模拟器,旨在使异构和解耦LLM Serving基础设施中的运行时驱动的硬件-软件交互变得明确且可分析。LLMServingSim 2.0将Serving决策和硬件行为嵌入到单个运行时循环中,从而能够进行交互感知的批处理、路由、卸载、内存和功耗建模。该模拟器支持通过基于配置文件的建模对新兴加速器和内存系统进行可扩展的集成,同时捕获动态Serving行为和系统级影响。我们针对实际部署验证了LLMServingSim 2.0,结果表明,它可以重现关键的性能、内存和功耗指标,平均误差为0.97%,即使对于复杂的配置,也能保持约10分钟的模拟时间。这些结果表明,LLMServingSim 2.0在硬件创新和Serving系统设计之间架起了一座实用的桥梁,从而能够对下一代LLM Serving基础设施进行系统的探索和协同设计。
🔬 方法详解
问题定义:论文旨在解决当前LLM Serving基础设施日益异构化和解耦化带来的建模和性能分析难题。现有模拟器无法同时兼顾异构硬件和解耦Serving策略,导致无法准确评估运行时硬件-软件交互对性能的影响。现有方法难以有效支持新兴加速器和内存系统的集成,限制了对未来LLM Serving基础设施的探索和优化。
核心思路:LLMServingSim 2.0的核心思路是将Serving决策(如批处理、路由、卸载)和硬件行为(如内存访问、功耗)嵌入到同一个运行时循环中。通过这种方式,模拟器能够捕捉Serving策略与硬件资源之间的动态交互,从而更准确地预测系统性能。这种设计允许对异构硬件和解耦Serving技术进行联合建模,并支持对新兴硬件技术的快速集成和评估。
技术框架:LLMServingSim 2.0的整体架构包含以下主要模块:1) 请求生成器:模拟用户请求的到达;2) Serving调度器:根据策略将请求分配到不同的硬件资源;3) 硬件模型:模拟异构硬件(如CPU、GPU、加速器)的性能和功耗;4) 内存模型:模拟内存系统的行为,包括数据移动和访问延迟;5) 运行时循环:协调各个模块的运行,并记录系统状态。该框架支持通过配置文件对硬件模型进行扩展,从而方便集成新的加速器和内存系统。
关键创新:LLMServingSim 2.0最重要的技术创新在于其统一的运行时驱动的模拟框架。与传统的静态分析方法不同,LLMServingSim 2.0能够动态地模拟Serving策略和硬件行为之间的交互,从而更准确地预测系统性能。此外,该模拟器还支持通过配置文件对硬件模型进行扩展,从而方便集成新的加速器和内存系统。
关键设计:LLMServingSim 2.0的关键设计包括:1) 基于配置文件的硬件模型:允许用户自定义硬件的性能参数和功耗模型;2) 灵活的Serving调度器:支持不同的调度策略,如FIFO、优先级调度等;3) 细粒度的内存模型:模拟内存访问延迟和带宽限制;4) 运行时状态记录:记录系统状态,用于性能分析和调试。
🖼️ 关键图片
📊 实验亮点
LLMServingSim 2.0通过与真实部署的对比验证,在重现关键性能、内存和功耗指标方面表现出色,平均误差仅为0.97%。即使面对复杂的配置,模拟时间也能控制在10分钟左右。这些结果表明,LLMServingSim 2.0能够准确、高效地模拟LLM Serving基础设施的性能,为硬件创新和Serving系统设计提供有力支持。
🎯 应用场景
LLMServingSim 2.0可应用于LLM Serving基础设施的设计和优化,帮助研究人员和工程师评估不同硬件和软件配置的性能,探索新的加速器和内存系统,并优化Serving策略。该模拟器还可用于指导硬件-软件协同设计,从而提高LLM Serving基础设施的效率和可扩展性。未来,LLMServingSim 2.0有望促进下一代LLM Serving基础设施的创新。
📄 摘要(原文)
Large language model (LLM) serving infrastructures are undergoing a shift toward heterogeneity and disaggregation. Modern deployments increasingly integrate diverse accelerators and near-memory processing technologies, introducing significant hardware heterogeneity, while system software increasingly separates computation, memory, and model components across distributed resources to improve scalability and efficiency. As a result, LLM serving performance is no longer determined by hardware or software choices in isolation, but by their runtime interaction through scheduling, data movement, and interconnect behavior. However, understanding these interactions remains challenging, as existing simulators lack the ability to jointly model heterogeneous hardware and disaggregated serving techniques within a unified, runtime-driven framework. This paper presents LLMServingSim 2.0, a unified system-level simulator designed to make runtime-driven hardware-software interactions in heterogeneous and disaggregated LLM serving infrastructures explicit and analyzable. LLMServingSim 2.0 embeds serving decisions and hardware behavior into a single runtime loop, enabling interaction-aware modeling of batching, routing, offloading, memory, and power. The simulator supports extensible integration of emerging accelerators and memory systems through profile-based modeling, while capturing dynamic serving behavior and system-level effects. We validate LLMServingSim 2.0 against real deployments, showing that it reproduces key performance, memory, and power metrics with an average error of 0.97%, while maintaining simulation times of around 10 minutes even for complex configurations. These results demonstrate that LLMServingSim 2.0 provides a practical bridge between hardware innovation and serving-system design, enabling systematic exploration and co-design for next-generation LLM serving infrastructures.