A Survey on Mixture of Experts in Large Language Models

📄 arXiv: 2407.06204v3 📥 PDF

作者: Weilin Cai, Juyong Jiang, Fan Wang, Jing Tang, Sunghun Kim, Jiayi Huang

分类: cs.LG, cs.CL

发布日期: 2024-06-26 (更新: 2025-04-09)

备注: The first three authors contributed equally to this work; Accepted by TKDE

期刊: IEEE Transactions on Knowledge and Data Engineering (TKDE) 2025

DOI: 10.1109/TKDE.2025.3554028

🔗 代码/项目: GITHUB


💡 一句话要点

对大型语言模型中混合专家模型(MoE)的综述,旨在系统性地回顾和分类MoE方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大型语言模型 稀疏激活 模型扩展 自然语言处理

📋 核心要点

  1. 大型语言模型规模的增长带来了计算和存储的挑战,而混合专家模型(MoE)旨在通过稀疏激活的方式扩展模型容量,降低计算成本。
  2. 该综述对MoE模型进行了系统性的分类,并从算法和系统两个层面概述了MoE模型的设计,为研究人员提供了全面的视角。
  3. 论文整理了MoE模型的开源实现、超参数配置和经验评估,并探讨了MoE在实际应用中的多方面应用,以及未来研究的潜在方向。

📝 摘要(中文)

大型语言模型(LLM)在自然语言处理、计算机视觉等多个领域取得了前所未有的进展。LLM的强大能力源于其庞大的模型规模、广泛而多样的数据集以及训练过程中利用的巨大计算能力,这些因素共同促成了LLM涌现出小型模型所不具备的能力(例如,上下文学习)。在这样的背景下,混合专家模型(MoE)作为一种有效的方法,以最小的计算开销显著扩展模型容量,受到了学术界和工业界的广泛关注。尽管MoE越来越普遍,但目前缺乏对MoE文献的系统和全面的综述。本综述旨在弥合这一差距,为深入研究MoE复杂性的研究人员提供重要的资源。我们首先简要介绍MoE层的结构,然后提出一种新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和经验评估的集合。此外,我们还描述了MoE在实践中的多方面应用,并概述了未来研究的一些潜在方向。为了促进MoE研究中不断更新和共享的前沿进展,我们建立了一个资源库,地址为https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs。

🔬 方法详解

问题定义:现有的大型语言模型在扩展模型规模时面临计算和存储瓶颈。传统的稠密模型需要巨大的计算资源进行训练和推理。混合专家模型(MoE)旨在解决这个问题,通过只激活部分模型参数来降低计算成本,同时保持或提升模型性能。现有的MoE研究分散,缺乏系统性的整理和分类。

核心思路:MoE的核心思想是将模型分解为多个“专家”子模型,并使用一个“门控网络”来决定哪些专家应该处理给定的输入。通过这种方式,每个输入只需要激活部分专家,从而实现稀疏激活,降低计算量。这种设计允许模型拥有更大的容量,而无需在每个输入上都进行完整的计算。

技术框架:MoE层通常包含一个门控网络和多个专家网络。门控网络接收输入,并根据输入计算每个专家的权重。然后,将输入传递给权重最高的几个专家。每个专家独立处理输入,并将结果返回。最后,将这些结果根据门控网络的权重进行加权组合,得到最终的输出。整个框架可以嵌入到现有的神经网络架构中,例如Transformer。

关键创新:MoE的关键创新在于其稀疏激活机制。与传统的稠密模型不同,MoE只激活部分参数,从而显著降低了计算成本。此外,MoE允许模型拥有更大的容量,因为每个专家都可以学习不同的知识,从而提高模型的整体性能。该综述的关键创新在于对现有MoE方法进行了系统性的分类和整理,为研究人员提供了一个全面的视角。

关键设计:关键设计包括门控网络的选择(例如,使用softmax函数或top-k选择)、专家网络的结构(例如,前馈神经网络或Transformer块)、以及如何平衡专家之间的负载(例如,使用辅助损失函数)。此外,如何有效地训练MoE模型也是一个关键问题,例如,如何避免专家之间的“崩溃”现象,以及如何利用数据并行和模型并行来加速训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述整理了大量MoE模型的开源实现和超参数配置,为研究人员提供了宝贵的资源。此外,论文还总结了MoE在各种任务上的经验评估结果,例如在语言建模任务上,MoE模型可以在保持或提升性能的同时,显著降低计算成本。这些实验结果表明MoE是一种有效的模型扩展方法。

🎯 应用场景

MoE在大型语言模型中具有广泛的应用前景,可以用于构建更大规模、更高性能的语言模型,从而提升自然语言处理任务的性能,例如文本生成、机器翻译、问答系统等。此外,MoE还可以应用于其他领域,例如计算机视觉和语音识别,通过稀疏激活的方式降低计算成本,提高模型效率。MoE的未来发展将推动人工智能技术的进步。

📄 摘要(原文)

Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge advances in MoE research, we have established a resource repository at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs.