Collaborative Compression for Large-Scale MoE Deployment on Edge

📄 arXiv: 2509.25689v1 📥 PDF

作者: Yixiao Chen, Yanyue Xie, Ruining Yang, Wei Jiang, Wei Wang, Yong He, Yue Chen, Pu Zhao, Yanzhi Wang

分类: cs.AI, cs.LG

发布日期: 2025-09-30


💡 一句话要点

提出协同压缩框架,实现超大MoE模型在边缘设备上的高效部署

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型压缩 边缘部署 专家剪枝 混合精度量化

📋 核心要点

  1. 超大MoE模型参数量巨大,难以直接部署在资源受限的边缘设备上,单纯的剪枝或量化难以满足需求。
  2. 提出协同压缩框架,结合专家剪枝、混合精度量化和激活优化,在压缩模型的同时保持精度。
  3. 成功将DeepSeek-V3模型压缩至103GB,并在128GB内存限制的边缘设备上部署,精度优于传统量化方法。

📝 摘要(中文)

本文提出了一种协同压缩框架,旨在解决超大规模混合专家模型(MoE)在资源受限的边缘平台上的部署难题。该框架结合了专家剪枝、混合精度量化和激活优化等技术,能够有效降低模型存储空间。实验结果表明,该方法成功将DeepSeek-V3模型的体积从1.3TB压缩到103GB,并在保持高输出质量的同时,实现了比传统均匀低比特量化方法更高的精度。据我们所知,这是首次在总内存限制为128GB的平台上部署来自超大规模DeepSeek-V3的压缩模型。在多个基准测试和各种内存约束下的综合实验验证了该方法的有效性,证明其在更小的模型尺寸下能够实现比均匀低比特量化方法更高的精度。

🔬 方法详解

问题定义:超大规模混合专家模型(MoE)拥有数千亿参数,导致其存储需求巨大,难以部署在资源受限的边缘设备上。现有的剪枝或量化方法在面对如此高的压缩率需求时,往往会导致显著的精度下降,无法满足实际应用的需求。因此,如何在保证模型精度的前提下,大幅度降低MoE模型的存储空间,是本文要解决的核心问题。

核心思路:本文的核心思路是采用协同压缩的方法,即结合多种压缩技术,充分利用各种压缩方法的优势,弥补单一方法的不足。通过专家剪枝减少模型参数量,混合精度量化降低参数存储位数,激活优化进一步减少计算过程中的内存占用,从而在整体上实现更高的压缩率和更好的精度保持。

技术框架:该协同压缩框架主要包含三个阶段:专家剪枝、混合精度量化和激活优化。首先,通过专家剪枝,移除对模型性能影响较小的专家,减少模型参数量。然后,对模型参数进行混合精度量化,对不同层或不同参数采用不同的量化比特数,以在精度和存储空间之间取得平衡。最后,通过激活优化,减少模型推理过程中的内存占用。

关键创新:该方法最重要的创新点在于协同压缩的思想,即将多种压缩技术有机结合,而不是孤立地使用单一方法。这种协同的方式能够充分利用各种压缩技术的优势,实现更高的压缩率和更好的精度保持。此外,针对MoE模型的特点,对专家剪枝策略进行了优化,使其能够更有效地减少模型参数量。

关键设计:在专家剪枝方面,采用了基于重要性的剪枝策略,即根据专家对模型性能的贡献程度来决定是否剪枝。在混合精度量化方面,采用了动态量化策略,即根据不同层或不同参数的敏感程度来选择不同的量化比特数。在激活优化方面,采用了内存复用技术,即在计算过程中尽可能地复用内存空间,减少内存占用。

📊 实验亮点

实验结果表明,该方法成功将DeepSeek-V3模型的体积从1.3TB压缩到103GB,压缩率超过90%。在保持高输出质量的同时,该方法实现了比传统均匀低比特量化方法更高的精度。在128GB内存限制的平台上成功部署了压缩后的DeepSeek-V3模型,验证了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可广泛应用于自然语言处理、智能对话、机器翻译等领域,尤其适用于需要在资源受限的边缘设备上部署大规模语言模型的场景,例如智能手机、嵌入式设备、物联网设备等。通过该方法,可以在边缘设备上实现更强大的AI能力,提升用户体验,并降低云计算成本。

📄 摘要(原文)

The Mixture of Experts (MoE) architecture is an important method for scaling Large Language Models (LLMs). It increases model capacity while keeping computation cost low. However, the ultra-large MoE models still have hundreds of billions of parameters, requiring massive memory/storage and leading to difficulties for deployment on resource-constrained edge platforms. Pruning or quantization alone can hardly address the issue, because of the super-aggressive compression ratio with significantly degraded accuracy and output quality. To facilitate the deployment of ultra-large MoEs on edge platforms, we propose a collaborative compression framework by combining expert pruning, mixed-precision quantization, and activation optimization. It can effectively reduce the storage footprint of the ultra-large MoE DeepSeek-V3 from 1.3TB to 103GB, while preserving high output quality with better accuracy than traditional uniform low-bit quantization methods. To the best of our knowledge, we are the first to deploy a compressed model from the ultra-large DeepSeek-V3 on the platform with a strict 128GB total memory limit. Our comprehensive experiments on multiple benchmarks under various memory constraints demonstrate the effectiveness of our method with smaller model sizes and higher accuracy than uniform low-bit quantization methods.