Enabling MoE on the Edge via Importance-Driven Expert Scheduling
作者: Guoying Zhu, Meng Li, Haipeng Dai, Xuechen Liu, Weijun Wang, Keran Li, Jun xiao, Ligeng Chen, Wei Wang
分类: cs.AI
发布日期: 2025-08-26 (更新: 2025-11-19)
💡 一句话要点
通过重要性驱动的专家调度实现边缘设备上的MoE
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家 边缘计算 动态调度 GPU缓存 模型优化 解码延迟 智能设备
📋 核心要点
- 现有的MoE架构在边缘设备上部署时面临内存限制,导致动态专家卸载成为必要,但传统方法未能有效解决这一问题。
- 本文提出了一种基于专家重要性的调度策略,通过替换低重要性专家来优化内存使用和数据传输,提升了系统效率。
- 实验结果显示,该方法实现了48%的解码延迟降低和超过60%的专家缓存命中率,同时保持了几乎无损的准确性。
📝 摘要(中文)
混合专家(MoE)架构已成为扩展大型语言模型的关键技术,通过每个查询激活仅一部分专家。然而,在消费级边缘硬件上部署MoE受到设备内存限制的约束,因此动态专家卸载变得至关重要。与以往将卸载视为调度问题的工作不同,我们利用专家的重要性来指导决策,用功能相似且已缓存于GPU内存中的低重要性激活专家进行替换,从而保持准确性。该设计减少了内存使用和数据传输,同时大幅消除PCIe开销。此外,我们引入了一种调度策略,以最大化GPU缓存专家的重用率,进一步提升效率。广泛评估表明,我们的方法在保持几乎无损准确性的同时,解码延迟降低了48%,专家缓存命中率超过60%。
🔬 方法详解
问题定义:本文旨在解决在消费级边缘硬件上部署混合专家(MoE)架构时,由于内存限制导致的动态专家卸载问题。现有方法未能充分利用专家的重要性,导致资源浪费和性能瓶颈。
核心思路:我们提出了一种利用专家重要性进行调度的策略,通过用功能相似且已缓存的专家替换低重要性专家,从而优化内存使用和数据传输,保持模型的准确性。
技术框架:整体架构包括专家选择模块、重要性评估模块和调度策略模块。专家选择模块根据输入查询的特征激活相应的专家,重要性评估模块则计算每个专家的重要性,调度策略模块负责动态替换低重要性专家。
关键创新:本研究的主要创新在于引入了专家重要性驱动的调度策略,与传统的调度方法相比,能够更有效地利用GPU缓存,减少内存占用和数据传输开销。
关键设计:在设计中,我们设置了专家的重要性评估标准,并优化了调度策略以最大化GPU缓存的重用率。此外,采用了适应性调整的参数设置,以确保在不同场景下的性能表现。
📊 实验亮点
实验结果表明,本文提出的方法在解码延迟上实现了48%的降低,专家缓存命中率超过60%,同时保持了几乎无损的准确性。这些结果显著优于现有的MoE调度方法,展示了其在边缘设备上的实际应用潜力。
🎯 应用场景
该研究的潜在应用领域包括边缘计算、智能设备和移动端AI应用,能够有效提升大型语言模型在资源受限环境下的运行效率。未来,该方法可能推动更多AI模型在边缘设备上的应用,促进智能化服务的普及。
📄 摘要(原文)
The Mixture of Experts (MoE) architecture has emerged as a key technique for scaling Large Language Models by activating only a subset of experts per query. Deploying MoE on consumer-grade edge hardware, however, is constrained by limited device memory, making dynamic expert offloading essential. Unlike prior work that treats offloading purely as a scheduling problem, we leverage expert importance to guide decisions, substituting low-importance activated experts with functionally similar ones already cached in GPU memory, thereby preserving accuracy. As a result, this design reduces memory usage and data transfer, while largely eliminating PCIe overhead. In addition, we introduce a scheduling policy that maximizes the reuse ratio of GPU-cached experts, further boosting efficiency. Extensive evaluations show that our approach delivers 48% lower decoding latency with over 60% expert cache hit rate, while maintaining nearly lossless accuracy.