Collaborative Compression for Large-Scale MoE Deployment on Edge
作者: Yixiao Chen, Yanyue Xie, Ruining Yang, Wei Jiang, Wei Wang, Yong He, Yue Chen, Pu Zhao, Yanzhi Wang
分类: cs.AI, cs.LG
发布日期: 2025-09-30
💡 一句话要点
提出协同压缩框架,实现超大MoE模型在边缘设备上的高效部署。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 模型压缩 边缘部署 专家剪枝 混合精度量化 激活优化 超大规模模型
📋 核心要点
- 超大规模MoE模型参数巨大,难以在资源受限的边缘设备上部署,单纯的剪枝或量化难以达到所需的压缩率。
- 提出一种协同压缩框架,结合专家剪枝、混合精度量化和激活优化,以在压缩模型大小的同时保持精度。
- 成功将DeepSeek-V3模型从1.3TB压缩到103GB,并在128GB内存限制的边缘设备上部署,精度优于传统量化方法。
📝 摘要(中文)
本文提出了一种协同压缩框架,旨在解决超大规模混合专家模型(MoE)在资源受限的边缘平台上的部署难题。该框架结合了专家剪枝、混合精度量化和激活优化等技术,能够有效降低超大MoE模型DeepSeek-V3的存储占用,从1.3TB压缩到103GB,同时保持较高的输出质量,并优于传统的均匀低比特量化方法。据我们所知,这是首次在总内存限制为128GB的平台上部署来自超大DeepSeek-V3的压缩模型。在各种内存约束下,对多个基准的综合实验表明,该方法在更小的模型尺寸下具有更高的准确性,优于均匀低比特量化方法。
🔬 方法详解
问题定义:超大规模混合专家模型(MoE)拥有数千亿参数,导致其存储需求巨大,难以部署在资源受限的边缘设备上。现有的剪枝或量化方法在压缩率要求极高的情况下,往往会造成严重的精度损失,无法满足实际应用需求。因此,如何在保证模型精度的前提下,大幅降低MoE模型的存储占用,是本文要解决的关键问题。
核心思路:本文的核心思路是采用协同压缩的方法,即综合利用专家剪枝、混合精度量化和激活优化等多种压缩技术,以实现更高的压缩率和更好的精度保持。通过多种压缩技术的协同作用,可以克服单一压缩方法的局限性,从而在模型大小和精度之间取得更好的平衡。
技术框架:该协同压缩框架主要包含三个阶段:1) 专家剪枝:根据专家的重要性进行剪枝,去除冗余的专家,降低模型参数量;2) 混合精度量化:对模型的不同部分采用不同的量化精度,对敏感部分采用更高的精度,对非敏感部分采用更低的精度,以在压缩模型大小的同时保持精度;3) 激活优化:对模型的激活值进行优化,例如采用更低精度的激活值,以进一步降低模型的存储占用。这三个阶段可以协同工作,共同实现模型的压缩。
关键创新:本文最重要的技术创新点在于提出了一个协同压缩框架,将专家剪枝、混合精度量化和激活优化等多种压缩技术有机结合起来。与传统的单一压缩方法相比,该框架能够实现更高的压缩率和更好的精度保持。此外,本文还首次成功地将超大规模MoE模型DeepSeek-V3压缩到可以在128GB内存限制的边缘设备上部署。
关键设计:在专家剪枝方面,采用了基于重要性的剪枝策略,根据专家对模型性能的贡献程度进行剪枝。在混合精度量化方面,采用了动态量化策略,根据模型不同部分的敏感程度选择不同的量化精度。在激活优化方面,采用了低精度激活值,并在训练过程中引入了正则化项,以防止精度损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该协同压缩框架能够将DeepSeek-V3模型从1.3TB压缩到103GB,同时保持较高的输出质量。在多个基准测试中,该方法的精度优于传统的均匀低比特量化方法。此外,该研究首次成功地将超大规模MoE模型部署在128GB内存限制的边缘设备上,证明了该方法的有效性和实用性。
🎯 应用场景
该研究成果可广泛应用于自然语言处理、智能对话、机器翻译等领域,尤其是在资源受限的边缘设备上部署超大规模MoE模型。例如,可以在智能手机、嵌入式设备等边缘设备上部署大型语言模型,实现本地化的智能服务,提高用户体验。此外,该研究还可以降低云计算成本,提高计算效率,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
The Mixture of Experts (MoE) architecture is an important method for scaling Large Language Models (LLMs). It increases model capacity while keeping computation cost low. However, the ultra-large MoE models still have hundreds of billions of parameters, requiring massive memory/storage and leading to difficulties for deployment on resource-constrained edge platforms. Pruning or quantization alone can hardly address the issue, because of the super-aggressive compression ratio with significantly degraded accuracy and output quality. To facilitate the deployment of ultra-large MoEs on edge platforms, we propose a collaborative compression framework by combining expert pruning, mixed-precision quantization, and activation optimization. It can effectively reduce the storage footprint of the ultra-large MoE DeepSeek-V3 from 1.3TB to 103GB, while preserving high output quality with better accuracy than traditional uniform low-bit quantization methods. To the best of our knowledge, we are the first to deploy a compressed model from the ultra-large DeepSeek-V3 on the platform with a strict 128GB total memory limit. Our comprehensive experiments on multiple benchmarks under various memory constraints demonstrate the effectiveness of our method with smaller model sizes and higher accuracy than uniform low-bit quantization methods.