QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts
作者: Pingzhi Li, Xiaolong Jin, Zhen Tan, Yu Cheng, Tianlong Chen
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-06-12 (更新: 2025-02-25)
备注: Our code for reproducing all our experiments is provided at https://github.com/UNITES-Lab/moe-quantization
💡 一句话要点
QuantMoE-Bench:研究专家混合模型后训练量化的细粒度精度设置
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 专家混合模型 后训练量化 模型压缩 混合精度量化 稀疏激活
📋 核心要点
- 现有MoE模型量化方法采用固定精度,忽略了MoE内部稀疏结构和不同组件的激活差异。
- 提出MoE结构感知的量化启发式方法,探索从粗粒度到细粒度的量化策略,优化比特分配。
- 实验表明,细粒度混合精度量化MoE模型在多个任务上取得了SOTA性能,并提出了数据驱动的比特分配优化方法。
📝 摘要(中文)
专家混合模型(MoE)是一种很有前景的扩展大型语言模型学习能力的方法。它通过稀疏激活在推理过程中保持FLOPs几乎不变的同时,增加了参数的数量。然而,由于庞大的参数规模,它仍然面临着显著的内存开销,因此需要模型压缩技术。后训练量化为模型压缩提供了一种强大的方法。现有的方法对整个MoE模型采用固定的量化精度。这种刚性的设置可能导致次优的性能,而没有考虑到固有的稀疏结构。例如,MoE的稀疏路由机制导致不同的激活模式,其中共享专家被所有token访问,而token条件专家被选择性地激活。这种激活差异表明了不同的量化需求,持续激活的共享专家可能需要更高的精度来维持模型质量。在本文中,我们研究了MoE量化的细粒度精度设置。我们探索了MoE结构感知的量化启发式方法,从粗粒度(例如,MoE层)到细粒度(例如,线性层)。我们的研究揭示了关键原则,不同的MoE结构需要不同数量的比特才能进行有效的量化。结论得到了两个代表性的MoE模型和六个任务(包括常识推理和自然语言理解)的广泛基准测试的支持。我们进一步表明,与基线64.30%(即GPTQ)相比,以细粒度混合精度量化的MoE平均实现了最先进的65.35%的性能。此外,基于这些发现,我们引入了新的数据驱动技术来优化MoE量化中的比特分配,包括异常值感知的线性层评分器和MoE块重要性预测器。
🔬 方法详解
问题定义:现有MoE模型的后训练量化方法通常采用固定的量化精度,忽略了MoE模型内部的稀疏结构和不同组件的激活模式差异。例如,共享专家和token条件专家的激活频率不同,对量化精度的需求也不同。这种固定精度的量化方法可能导致性能下降,无法充分利用MoE模型的潜力。
核心思路:论文的核心思路是针对MoE模型的结构特点,采用细粒度的混合精度量化策略。通过分析MoE模型不同组件(如MoE层、线性层)的重要性,并根据其激活模式和对模型性能的影响,动态地分配不同的量化比特数。这样可以在保证模型性能的同时,最大限度地压缩模型大小。
技术框架:论文首先对MoE模型进行结构分析,识别出不同类型的组件,如共享专家和token条件专家。然后,针对不同的组件,探索不同的量化策略,包括粗粒度的MoE层级量化和细粒度的线性层级量化。接着,论文提出了数据驱动的比特分配优化方法,包括异常值感知的线性层评分器和MoE块重要性预测器,用于自动确定每个组件的最佳量化比特数。最后,通过实验验证了所提出的量化策略在多个MoE模型和任务上的有效性。
关键创新:论文的关键创新在于提出了MoE结构感知的细粒度混合精度量化方法。与传统的固定精度量化方法相比,该方法能够更好地适应MoE模型的结构特点,实现更高的压缩率和更好的性能。此外,论文还提出了数据驱动的比特分配优化方法,能够自动确定每个组件的最佳量化比特数,进一步提高了量化效果。
关键设计:论文的关键设计包括:1) 针对不同MoE组件的量化粒度选择;2) 异常值感知的线性层评分器,用于评估线性层对模型性能的影响;3) MoE块重要性预测器,用于预测MoE块的重要性;4) 基于预测结果的比特分配策略,例如,对重要性高的组件分配更多的比特数,对重要性低的组件分配更少的比特数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与基线GPTQ相比,采用细粒度混合精度量化的MoE模型在平均性能上取得了显著提升,达到了65.35%,而基线为64.30%。这表明所提出的量化策略能够有效地压缩MoE模型,并在保证模型性能的同时,降低模型的存储和计算成本。此外,数据驱动的比特分配优化方法也能够进一步提高量化效果。
🎯 应用场景
该研究成果可应用于各种需要部署大型MoE模型的场景,例如自然语言处理、机器翻译、语音识别等。通过模型压缩,可以降低模型的存储和计算成本,使其能够在资源受限的设备上运行,并提高推理速度。此外,该研究还可以促进MoE模型在边缘计算和移动设备上的应用。
📄 摘要(原文)
Mixture-of-Experts (MoE) is a promising way to scale up the learning capacity of large language models. It increases the number of parameters while keeping FLOPs nearly constant during inference through sparse activation. Yet, it still suffers from significant memory overheads due to the vast parameter size, necessitating model compression techniques. Post-training quantization offers a powerful approach for model compression. Existing methods adopt a fixed quantization precision for the entire MoE model. This rigid setup can lead to suboptimal performance, without considering the inherent sparse structure. For example, MoE's sparse routing mechanism leads to different activation patterns, where shared experts are accessed by all tokens while token-conditioned experts are selectively activated. This activation disparity suggests different quantization requirements, with consistently activated shared experts potentially needing higher precision to maintain model quality. In this paper, we study a fine-grained precision setup for MoE quantization. We explore MoE structure-aware quantization heuristics, ranging from coarse (e.g., MoE layers) to fine granularity (e.g., linear layers). Our investigations reveal critical principles, where different MoE structures require varying numbers of bits for effective quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks including commonsense reasoning and natural language understanding. We further show that an MoE quantized in a fined-grained mixed precision achieved state-of-the-art 65.35% performance on average compared to the baseline 64.30% (i.e., GPTQ). Moreover, based on the findings, we introduce novel data-driven techniques for optimizing bit allocation in MoE quantization, including the outlier-aware linear layer scorer and MoE block importance predictor.