Patterns behind Chaos: Forecasting Data Movement for Efficient Large-Scale MoE LLM Inference
作者: Zhongkai Yu, Yue Guan, Zihao Yu, Chenyang Zhou, Zhengding Hu, Shuyi Pei, Yangwook Kang, Yufei Ding, Po-An Tsai
分类: cs.DC, cs.AI, cs.AR, cs.LG
发布日期: 2026-04-06
💡 一句话要点
针对大规模MoE LLM推理,提出数据移动预测方法以优化系统效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: MoE LLM 数据移动 模型推理 系统优化 专家选择
📋 核心要点
- 大规模MoE模型推理时,随机专家选择导致数据移动开销巨大,成为性能瓶颈。
- 通过对多种MoE模型的数据移动进行分析,提取时空模式,指导系统优化设计。
- 在晶圆级GPU和现有GPU系统上验证,分别实现6.6倍和1.25倍的加速。
📝 摘要(中文)
大规模混合专家模型(MoE LLM)已成为前沿的开源权重模型,其模型能力与专有模型相似。然而,其随机专家选择机制引入了显著的数据移动开销,这成为多单元LLM服务系统中的主要瓶颈。为了理解这种数据移动背后的模式,我们对2025年发布的四种最先进的大规模MoE模型(200B-1000B)进行了全面的数据移动中心分析,使用了超过24,000个跨越不同工作负载的请求。我们从时间和空间角度进行了系统分析,并提炼出六个关键见解,以指导不同服务系统的设计。我们在未来的晶圆级GPU架构和现有的GPU系统上验证了这些见解。在晶圆级GPU上,由我们的见解指导的轻量级架构修改在四种200B-1000B模型上产生了平均6.6倍的加速。在现有的GPU系统上,我们的见解驱动了一种预填充感知专家放置算法的设计,该算法在MoE计算上实现了高达1.25倍的加速。我们的工作提出了第一个全面的以数据为中心的大规模MoE模型分析,以及一个应用所学经验的具体设计研究。我们的分析追踪可在[this https URL_expert_selection_trace]公开获取。
🔬 方法详解
问题定义:论文旨在解决大规模MoE LLM推理过程中,由于随机专家选择导致的数据移动开销过大的问题。现有方法未能充分理解和利用数据移动的模式,导致资源利用率低,推理速度慢。
核心思路:论文的核心思路是通过深入分析MoE模型推理过程中的数据移动模式,从时间和空间两个维度提取关键特征,并利用这些特征来指导系统设计和优化,从而减少数据移动开销,提高推理效率。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:使用多种大规模MoE模型和多样化的工作负载,收集详细的数据移动追踪信息。2) 数据分析:从时间和空间角度对数据移动进行系统分析,提取关键模式和见解。3) 系统设计:基于分析结果,设计针对性的系统优化策略,包括架构修改和专家放置算法。4) 实验验证:在不同的硬件平台上(晶圆级GPU和现有GPU系统)验证优化策略的有效性。
关键创新:论文最重要的技术创新在于对大规模MoE模型的数据移动进行了全面的、以数据为中心的分析。通过对大量数据的挖掘,揭示了数据移动背后的隐藏模式,并将其转化为可用于系统优化的具体指导。与现有方法相比,该方法更加注重数据驱动,能够更准确地捕捉到MoE模型的特性。
关键设计:论文的关键设计包括:1) 轻量级架构修改:针对晶圆级GPU,根据数据移动模式进行硬件加速器设计。2) 预填充感知专家放置算法:针对现有GPU系统,根据预填充阶段的专家选择情况,动态调整专家的放置位置,减少数据传输。具体的参数设置、损失函数和网络结构等细节未在摘要中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文在晶圆级GPU上,通过轻量级架构修改,实现了平均6.6倍的加速。在现有GPU系统上,通过预填充感知专家放置算法,实现了高达1.25倍的MoE计算加速。这些结果表明,通过深入理解数据移动模式,可以显著提升MoE LLM的推理性能。
🎯 应用场景
该研究成果可应用于大规模语言模型的部署和服务,尤其是在资源受限或对延迟敏感的场景下。通过优化数据移动,可以降低推理成本,提高服务质量,并促进MoE LLM在各个领域的广泛应用,例如智能客服、内容生成和机器翻译等。
📄 摘要(原文)
Large-scale Mixture of Experts (MoE) Large Language Models (LLMs) have recently become the frontier open weight models, achieving remarkable model capability similar to proprietary ones. But their random expert selection mechanism introduces significant data movement overhead that becomes the dominant bottleneck in multi-unit LLM serving systems.To understand the patterns underlying this data movement, we conduct comprehensive data-movement-centric profiling across four state-of-the-art large-scale MoE models released in 2025 (200B-1000B) using over 24,000 requests spanning diverse workloads. We perform systematic analysis from both temporal and spatial perspectives and distill six key insights to guide the design of diverse serving systems. We verify these insights on both future wafer-scale GPU architectures and existing GPU systems. On wafer-scale GPUs, lightweight architectural modifications guided by our insights yield a 6.6$\times$ average speedup across four 200B--1000B models. On existing GPU systems, our insights drive the design of a prefill-aware expert placement algorithm that achieves up to 1.25$\times$ speedup on MoE computation. Our work presents the first comprehensive data-centric analysis of large-scale MoE models together with a concrete design study applying the learned lessons. Our profiling traces are publicly available at \href{this https URL}{\textcolor{blue}{this https URL_expert_selection_trace}}.