ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference
作者: Zixu Shen, Kexin Chu, Yifan Zhang, Dawei Xiang, Runxin Wu, Wei Zhang
分类: cs.DC, cs.AI, cs.PF
发布日期: 2025-10-30
备注: 12 pages, 11 figures
💡 一句话要点
ExpertFlow:自适应专家调度与内存协调,提升MoE模型推理效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 MoE推理 自适应预取 缓存感知路由 运行时系统 大语言模型 模型优化
📋 核心要点
- 传统MoE推理因频繁的参数传输导致高延迟,且跨层预测策略缺乏适应性。
- ExpertFlow通过自适应专家预取和缓存感知路由,动态调整预测范围,优化内存访问。
- 实验表明,ExpertFlow能显著降低模型停顿时间,优化MoE推理,提升效率。
📝 摘要(中文)
大型语言模型的扩展日益受到现代GPU有限内存容量的限制。混合专家模型(MoE)通过在推理期间仅激活一小部分参数来缓解这个问题,显著降低了内存需求和计算开销。然而,传统的MoE推理方法在每一层独立选择激活专家,由于主机和GPU内存之间频繁的参数传输,通常会引入相当大的延迟。此外,当前基于固定步骤的跨层预测策略缺乏在不同硬件平台和工作负载上的适应性,从而降低了其鲁棒性和有效性。为了解决这些挑战,我们提出ExpertFlow,一个用于MoE推理的运行时系统,它结合了自适应专家预取和缓存感知路由。ExpertFlow通过利用传输带宽、参数维度和模型反馈信号等运行时统计信息,持续调整专家激活的预测范围。此外,它还结合了一种混合跨层预测方案,将预门控信息与中间计算状态融合,以预测未来的专家需求。通过自适应地优化预取决策并使其与实际使用行为保持一致,ExpertFlow有效地减少了缓存未命中,并消除了由专家交换引入的延迟。我们的评估表明,ExpertFlow将模型停顿时间减少到基线的0.1%以下,突显了其在严格内存约束下优化MoE推理的能力。
🔬 方法详解
问题定义:MoE模型推理过程中,由于GPU内存容量限制,需要频繁地在主机内存和GPU内存之间传输专家模型的参数,导致显著的延迟。现有的MoE推理方法通常在每一层独立选择激活的专家,没有充分利用跨层信息,并且预取策略是静态的,无法适应不同的硬件平台和工作负载。
核心思路:ExpertFlow的核心思路是通过自适应的专家预取和缓存感知路由,减少不必要的参数传输,并提高缓存命中率。它利用运行时统计信息(如传输带宽、参数维度和模型反馈信号)动态调整专家激活的预测范围,从而更准确地预测未来需要的专家。
技术框架:ExpertFlow是一个运行时系统,主要包含两个核心模块:自适应专家预取和缓存感知路由。自适应专家预取模块根据运行时统计信息动态调整预取范围,预测未来需要的专家,并提前将其加载到GPU内存中。缓存感知路由模块则根据专家的缓存状态和访问频率,优化路由策略,减少缓存未命中。此外,ExpertFlow还采用了一种混合跨层预测方案,融合预门控信息和中间计算状态,以提高预测的准确性。
关键创新:ExpertFlow的关键创新在于其自适应的预取策略和混合跨层预测方案。传统的预取策略通常是静态的,无法适应不同的硬件平台和工作负载。ExpertFlow通过运行时统计信息动态调整预取范围,使其能够更好地适应不同的场景。混合跨层预测方案则结合了预门控信息和中间计算状态,提高了预测的准确性,从而减少了不必要的参数传输。
关键设计:ExpertFlow的关键设计包括:1) 使用运行时统计信息(如传输带宽、参数维度和模型反馈信号)来动态调整预取范围;2) 采用混合跨层预测方案,融合预门控信息和中间计算状态;3) 设计缓存感知路由策略,根据专家的缓存状态和访问频率优化路由。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ExpertFlow能够将模型停顿时间降低到基线的0.1%以下。这意味着ExpertFlow能够显著减少由于参数传输导致的延迟,从而提高MoE模型的推理效率。这一结果突显了ExpertFlow在优化MoE推理方面的强大能力,尤其是在内存资源受限的情况下。
🎯 应用场景
ExpertFlow可应用于各种需要高效MoE模型推理的场景,例如大规模语言模型服务、推荐系统、以及其他需要处理海量数据的AI应用。通过降低内存需求和推理延迟,ExpertFlow能够提升AI服务的性能和用户体验,并降低部署成本。未来,该技术有望推动更大规模、更复杂的MoE模型在资源受限环境中的应用。
📄 摘要(原文)
The expansion of large language models is increasingly limited by the constrained memory capacity of modern GPUs. To mitigate this, Mixture-of-Experts (MoE) architectures activate only a small portion of parameters during inference, significantly lowering both memory demand and computational overhead. However, conventional MoE inference approaches, which select active experts independently at each layer, often introduce considerable latency because of frequent parameter transfers between host and GPU memory. In addition, current cross-layer prediction strategies, which are typically based on fixed steps, lack adaptability across different hardware platforms and workloads, thereby reducing their robustness and effectiveness. To address these challenges, we present ExpertFlow, a runtime system for MoE inference that combines adaptive expert prefetching and cache-aware routing. ExpertFlow continuously adjusts its prediction horizon for expert activation by leveraging runtime statistics such as transfer bandwidth, parameter dimensionality, and model feedback signals. Furthermore, it incorporates a hybrid cross-layer prediction scheme that fuses pregating information with intermediate computational states to anticipate future expert needs. By adaptively refining prefetching decisions and aligning them with actual usage behavior, ExpertFlow effectively decreases cache misses and removes latency caused by expert swap-ins. Our evaluation demonstrates that ExpertFlow reduces model stall time to less than 0.1% of the baseline, highlighting its capability to optimize MoE inference under stringent memory constraints.