Enabling MoE on the Edge via Importance-Driven Expert Scheduling

作者: Guoying Zhu, Meng Li, Haipeng Dai, Xuechen Liu, Weijun Wang, Keran Li, Jun xiao, Ligeng Chen, Wei Wang

分类: cs.AI

发布日期: 2025-08-26 (更新: 2025-11-19)

💡 一句话要点

通过重要性驱动的专家调度实现边缘设备上的MoE

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家 边缘计算 动态调度 GPU缓存 模型优化 解码延迟 智能设备

📋 核心要点

现有的MoE架构在边缘设备上部署时面临内存限制，导致动态专家卸载成为必要，但传统方法未能有效解决这一问题。
本文提出了一种基于专家重要性的调度策略，通过替换低重要性专家来优化内存使用和数据传输，提升了系统效率。
实验结果显示，该方法实现了48%的解码延迟降低和超过60%的专家缓存命中率，同时保持了几乎无损的准确性。

📝 摘要（中文）

混合专家（MoE）架构已成为扩展大型语言模型的关键技术，通过每个查询激活仅一部分专家。然而，在消费级边缘硬件上部署MoE受到设备内存限制的约束，因此动态专家卸载变得至关重要。与以往将卸载视为调度问题的工作不同，我们利用专家的重要性来指导决策，用功能相似且已缓存于GPU内存中的低重要性激活专家进行替换，从而保持准确性。该设计减少了内存使用和数据传输，同时大幅消除PCIe开销。此外，我们引入了一种调度策略，以最大化GPU缓存专家的重用率，进一步提升效率。广泛评估表明，我们的方法在保持几乎无损准确性的同时，解码延迟降低了48%，专家缓存命中率超过60%。

🔬 方法详解

问题定义：本文旨在解决在消费级边缘硬件上部署混合专家（MoE）架构时，由于内存限制导致的动态专家卸载问题。现有方法未能充分利用专家的重要性，导致资源浪费和性能瓶颈。

核心思路：我们提出了一种利用专家重要性进行调度的策略，通过用功能相似且已缓存的专家替换低重要性专家，从而优化内存使用和数据传输，保持模型的准确性。

技术框架：整体架构包括专家选择模块、重要性评估模块和调度策略模块。专家选择模块根据输入查询的特征激活相应的专家，重要性评估模块则计算每个专家的重要性，调度策略模块负责动态替换低重要性专家。

关键创新：本研究的主要创新在于引入了专家重要性驱动的调度策略，与传统的调度方法相比，能够更有效地利用GPU缓存，减少内存占用和数据传输开销。

关键设计：在设计中，我们设置了专家的重要性评估标准，并优化了调度策略以最大化GPU缓存的重用率。此外，采用了适应性调整的参数设置，以确保在不同场景下的性能表现。

📊 实验亮点

实验结果表明，本文提出的方法在解码延迟上实现了48%的降低，专家缓存命中率超过60%，同时保持了几乎无损的准确性。这些结果显著优于现有的MoE调度方法，展示了其在边缘设备上的实际应用潜力。

🎯 应用场景

该研究的潜在应用领域包括边缘计算、智能设备和移动端AI应用，能够有效提升大型语言模型在资源受限环境下的运行效率。未来，该方法可能推动更多AI模型在边缘设备上的应用，促进智能化服务的普及。

📄 摘要（原文）

The Mixture of Experts (MoE) architecture has emerged as a key technique for scaling Large Language Models by activating only a subset of experts per query. Deploying MoE on consumer-grade edge hardware, however, is constrained by limited device memory, making dynamic expert offloading essential. Unlike prior work that treats offloading purely as a scheduling problem, we leverage expert importance to guide decisions, substituting low-importance activated experts with functionally similar ones already cached in GPU memory, thereby preserving accuracy. As a result, this design reduces memory usage and data transfer, while largely eliminating PCIe overhead. In addition, we introduce a scheduling policy that maximizes the reuse ratio of GPU-cached experts, further boosting efficiency. Extensive evaluations show that our approach delivers 48% lower decoding latency with over 60% expert cache hit rate, while maintaining nearly lossless accuracy.

Enabling MoE on the Edge via Importance-Driven Expert Scheduling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册