Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules
作者: Xinglin Pan, Wenxiang Lin, Shaohuai Shi, Xiaowen Chu, Weinong Sun, Bo Li
分类: cs.DC, cs.LG
发布日期: 2024-06-30 (更新: 2024-07-03)
💡 一句话要点
Parm:通过专用调度高效训练大规模稀疏激活模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏激活模型 混合专家模型 模型并行 专家并行 通信调度 GPU集群 训练加速
📋 核心要点
- 现有MoE模型训练受限于MP+EP+ESP并行引入的通信开销,导致训练效率低下。
- Parm通过设计专用通信调度,消除冗余计算和通信,并重叠节点内和节点间通信,从而加速训练。
- 实验表明,Parm在多种MoE模型上优于DeepSpeed-MoE,实现了显著的训练加速。
📝 摘要(中文)
稀疏激活的混合专家(MoE)层已在扩大大规模基础模型的模型规模方面找到了实际应用,计算需求仅呈亚线性增长。尽管诸如模型并行、专家并行和专家分片并行(即MP+EP+ESP)之类的混合并行范式被广泛采用以支持GPU集群上的MoE模型训练,但训练效率受到这些并行范式引入的通信成本的阻碍。为了解决这个限制,我们提出了Parm,一个通过设计两个用于放置通信任务的专用调度来加速MP+EP+ESP训练的系统。所提出的调度消除了冗余的计算和通信,并实现了节点内和节点间通信之间的重叠,最终减少了整体训练时间。由于这两个调度不是互斥的,我们提供了全面的理论分析,并推导出一个自动且准确的解决方案,以确定在不同场景下应应用哪个调度。在8-GPU服务器和32-GPU集群上的实验结果表明,Parm优于最先进的MoE训练系统DeepSpeed-MoE,在1296个手动配置的MoE层上实现了1.13倍至5.77倍的加速,并在基于BERT和GPT-2的两个真实MoE模型上实现了大约3倍的改进。
🔬 方法详解
问题定义:论文旨在解决大规模稀疏激活MoE模型在GPU集群上训练时,由于模型并行、专家并行和专家分片并行(MP+EP+ESP)引入的大量通信开销导致训练效率低下的问题。现有方法,如DeepSpeed-MoE,虽然支持MP+EP+ESP,但未能充分优化通信调度,导致冗余计算和通信,以及节点内和节点间通信无法有效重叠,从而限制了整体训练速度。
核心思路:Parm的核心思路是通过设计两个专用的通信调度策略,精细化地管理和优化MP+EP+ESP并行训练过程中的通信任务。这两个调度策略旨在消除冗余的计算和通信,并最大化节点内和节点间通信的重叠,从而显著降低整体通信开销,提升训练效率。Parm还提供理论分析和自动选择机制,根据不同场景选择最佳调度策略。
技术框架:Parm的整体框架包括:1) 通信任务分析模块,用于识别和分析MP+EP+ESP并行训练中的通信任务;2) 专用调度策略模块,包含两个优化的通信调度策略;3) 调度策略选择模块,基于理论分析自动选择最佳调度策略;4) 执行引擎,负责执行选定的调度策略,并管理节点内和节点间通信。
关键创新:Parm的关键创新在于两个专用的通信调度策略以及自动调度策略选择机制。这两个调度策略针对MP+EP+ESP并行训练的特点进行了优化,能够有效消除冗余通信和计算,并实现节点内和节点间通信的重叠。自动调度策略选择机制则能够根据不同场景选择最佳调度策略,进一步提升训练效率。与现有方法相比,Parm更加关注通信调度的优化,能够更有效地利用GPU集群的计算资源。
关键设计:Parm的关键设计包括:1) 两个专用调度策略的具体实现,例如,如何消除冗余通信,如何实现通信重叠;2) 自动调度策略选择机制的理论分析和实现,例如,如何根据模型大小、集群规模等参数选择最佳调度策略;3) 执行引擎的优化,例如,如何高效地管理节点内和节点间通信。
🖼️ 关键图片
📊 实验亮点
Parm在8-GPU服务器和32-GPU集群上的实验结果表明,其性能优于最先进的MoE训练系统DeepSpeed-MoE。在1296个手动配置的MoE层上,Parm实现了1.13倍至5.77倍的加速。在基于BERT和GPT-2的两个真实MoE模型上,Parm实现了大约3倍的改进。这些结果表明,Parm能够显著提升大规模稀疏激活模型的训练效率。
🎯 应用场景
Parm的潜在应用领域包括大规模语言模型训练、推荐系统、图像识别等需要大规模稀疏激活模型的场景。通过提高训练效率,Parm可以降低训练成本,加速模型迭代,并支持更大规模模型的训练,从而提升模型性能。未来,Parm可以进一步扩展到其他并行范式和硬件平台,为更多的大规模模型训练提供支持。
📄 摘要(原文)
Sparsely-activated Mixture-of-Expert (MoE) layers have found practical applications in enlarging the model size of large-scale foundation models, with only a sub-linear increase in computation demands. Despite the wide adoption of hybrid parallel paradigms like model parallelism, expert parallelism, and expert-sharding parallelism (i.e., MP+EP+ESP) to support MoE model training on GPU clusters, the training efficiency is hindered by communication costs introduced by these parallel paradigms. To address this limitation, we propose Parm, a system that accelerates MP+EP+ESP training by designing two dedicated schedules for placing communication tasks. The proposed schedules eliminate redundant computations and communications and enable overlaps between intra-node and inter-node communications, ultimately reducing the overall training time. As the two schedules are not mutually exclusive, we provide comprehensive theoretical analyses and derive an automatic and accurate solution to determine which schedule should be applied in different scenarios. Experimental results on an 8-GPU server and a 32-GPU cluster demonstrate that Parm outperforms the state-of-the-art MoE training system, DeepSpeed-MoE, achieving 1.13$\times$ to 5.77$\times$ speedup on 1296 manually configured MoE layers and approximately 3$\times$ improvement on two real-world MoE models based on BERT and GPT-2.