LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure
作者: Jaehong Cho, Hyunmin Choi, Guseul Heo, Jongse Park
分类: cs.DC, cs.AI
发布日期: 2026-02-28
💡 一句话要点
LLMServingSim 2.0:异构和解耦LLM服务基础设施的统一模拟器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM服务 系统模拟 异构计算 解耦架构 硬件软件协同设计
📋 核心要点
- 现有LLM服务模拟器难以在统一框架内建模异构硬件和解耦服务技术,无法有效分析运行时硬件-软件交互。
- LLMServingSim 2.0通过将服务决策和硬件行为嵌入运行时循环,实现交互感知的批处理、路由、内存和功耗建模。
- 实验验证表明,LLMServingSim 2.0能以平均0.97%的误差重现实际部署的关键指标,模拟时间约为10分钟。
📝 摘要(中文)
大型语言模型(LLM)服务基础设施正朝着异构和解耦的方向发展。现代部署越来越多地集成各种加速器和近内存处理技术,引入了显著的硬件异构性。同时,系统软件越来越多地将计算、内存和模型组件分离到分布式资源中,以提高可扩展性和效率。因此,LLM服务性能不再仅仅取决于硬件或软件的选择,而是取决于它们通过调度、数据移动和互连行为的运行时交互。然而,理解这些交互仍然具有挑战性,因为现有的模拟器缺乏在统一的、运行时驱动的框架内联合建模异构硬件和解耦服务技术的能力。本文提出了LLMServingSim 2.0,一个统一的系统级模拟器,旨在使异构和解耦LLM服务基础设施中的运行时驱动的硬件-软件交互变得明确和可分析。LLMServingSim 2.0将服务决策和硬件行为嵌入到单个运行时循环中,从而能够进行交互感知的批处理、路由、卸载、内存和功耗建模。该模拟器支持通过基于配置文件的建模对新兴加速器和内存系统进行可扩展的集成,同时捕获动态服务行为和系统级效应。我们针对实际部署验证了LLMServingSim 2.0,表明它可以重现关键的性能、内存和功耗指标,平均误差为0.97%,即使对于复杂的配置,也能保持约10分钟的模拟时间。这些结果表明,LLMServingSim 2.0在硬件创新和服务系统设计之间架起了一座实用的桥梁,从而能够对下一代LLM服务基础设施进行系统的探索和协同设计。
🔬 方法详解
问题定义:现有LLM服务模拟器无法同时模拟异构硬件(如不同类型的加速器)和解耦的服务架构(计算、内存分离),导致无法准确评估运行时硬件和软件交互对性能的影响。现有方法难以捕捉批处理、路由、卸载等动态服务行为,以及系统级的功耗和内存影响。
核心思路:LLMServingSim 2.0的核心思路是将服务决策(如批处理、路由)和硬件行为(如内存访问、功耗)集成到一个统一的运行时循环中。通过这种方式,模拟器可以显式地建模硬件和软件之间的交互,从而更准确地预测LLM服务在异构和解耦环境下的性能。
技术框架:LLMServingSim 2.0采用系统级模拟方法,其整体架构包含以下主要模块:1) 请求生成器:模拟LLM服务的请求负载。2) 调度器:根据策略将请求分配给不同的计算资源。3) 硬件模型:模拟异构硬件的行为,包括加速器、内存系统和互连网络。4) 功耗模型:估计硬件的功耗。5) 运行时循环:模拟服务请求的整个生命周期,包括调度、计算、数据移动和功耗。
关键创新:LLMServingSim 2.0的关键创新在于其统一的运行时循环,该循环能够显式地建模硬件和软件之间的交互。此外,该模拟器还支持通过基于配置文件的建模对新兴加速器和内存系统进行可扩展的集成,从而能够快速评估新硬件技术对LLM服务性能的影响。
关键设计:LLMServingSim 2.0的关键设计包括:1) 基于配置文件的硬件模型,允许用户自定义硬件参数。2) 可配置的调度策略,支持不同的请求分配算法。3) 细粒度的功耗模型,能够估计不同硬件组件的功耗。4) 详细的内存模型,模拟内存访问延迟和带宽。
🖼️ 关键图片
📊 实验亮点
LLMServingSim 2.0通过与真实部署的对比验证,在性能、内存和功耗等关键指标上实现了平均0.97%的误差率。即使在复杂的异构和解耦配置下,模拟时间也能控制在10分钟左右,证明了其在实际应用中的可行性。该模拟器能够准确捕捉硬件和软件之间的复杂交互,为LLM服务基础设施的设计提供了可靠的评估工具。
🎯 应用场景
LLMServingSim 2.0可用于指导下一代LLM服务基础设施的设计和优化。它可以帮助研究人员和工程师评估不同硬件架构、调度策略和内存管理技术对LLM服务性能的影响,从而实现硬件和软件的协同设计。该模拟器还可用于优化LLM服务的部署,例如选择合适的硬件配置和调度策略,以满足特定的性能和功耗需求。
📄 摘要(原文)
Large language model (LLM) serving infrastructures are undergoing a shift toward heterogeneity and disaggregation. Modern deployments increasingly integrate diverse accelerators and near-memory processing technologies, introducing significant hardware heterogeneity, while system software increasingly separates computation, memory, and model components across distributed resources to improve scalability and efficiency. As a result, LLM serving performance is no longer determined by hardware or software choices in isolation, but by their runtime interaction through scheduling, data movement, and interconnect behavior. However, understanding these interactions remains challenging, as existing simulators lack the ability to jointly model heterogeneous hardware and disaggregated serving techniques within a unified, runtime-driven framework.This paper presents LLMServingSim 2.0, a unified system-level simulator designed to make runtime-driven hardware-software interactions in heterogeneous and disaggregated LLM serving infrastructures explicit and analyzable. LLMServingSim 2.0 embeds serving decisions and hardware behavior into a single runtime loop, enabling interaction-aware modeling of batching, routing, offloading, memory, and power. The simulator supports extensible integration of emerging accelerators and memory systems through profile-based modeling, while capturing dynamic serving behavior and system-level effects. We validate LLMServingSim 2.0 against real deployments, showing that it reproduces key performance, memory, and power metrics with an average error of 0.97%, while maintaining simulation times of around 10 minutes even for complex configurations. These results demonstrate that LLMServingSim 2.0 provides a practical bridge between hardware innovation and serving-system design, enabling systematic exploration and co-design for next-generation LLM serving infrastructures.