The Big Send-off: High Performance Collectives on GPU-based Supercomputers

📄 arXiv: 2504.18658v1 📥 PDF

作者: Siddharth Singh, Mahua Singh, Abhinav Bhatele

分类: cs.DC, cs.AI, cs.LG

发布日期: 2025-04-25


💡 一句话要点

PCCL:针对GPU超级计算机上大规模LLM训练的高性能集合通信库

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 集合通信 GPU超级计算机 大规模语言模型 分布式训练 PCCL All-gather Reduce-scatter

📋 核心要点

  1. 现有集合通信库(如RCCL和Cray-MPICH)在GPU超级计算机上进行大规模LLM训练时,存在资源利用率低和可扩展性差的问题。
  2. PCCL通过优化all-gather和reduce-scatter操作,充分利用网络和计算资源,实现高效的分布式深度学习通信。
  3. 实验表明,PCCL在Frontier上实现了显著的性能提升,并加速了GPT-3风格的大规模语言模型训练。

📝 摘要(中文)

本文评估了基于GPU的超级计算机上用于大规模语言模型(LLM)训练的集合通信的现状。现有的库(如RCCL和Cray-MPICH)在诸如Frontier的系统上表现出关键的局限性——Cray-MPICH未能充分利用网络和计算资源,而RCCL则面临严重的可扩展性问题。为了应对这些挑战,我们引入了PCCL,这是一个通信库,具有高度优化的all-gather和reduce-scatter操作实现,专为分布式深度学习工作负载量身定制。PCCL旨在最大限度地利用所有可用的网络和计算资源,并有效地扩展到数千个GPU。它实现了显著的性能改进,在Frontier的2048个GCD上,all-gather操作的性能比RCCL提高了6-33倍,比Cray-MPICH提高了28-70倍。这些收益直接转化为端到端性能:在大型GPT-3风格的训练中,对于7B和13B参数模型,PCCL分别比RCCL提供了高达60%和40%的加速。

🔬 方法详解

问题定义:论文旨在解决在GPU超级计算机上,现有集合通信库(特别是RCCL和Cray-MPICH)在进行大规模语言模型训练时存在的性能瓶颈问题。RCCL在扩展性方面存在问题,而Cray-MPICH则未能充分利用网络和计算资源,导致训练效率低下。

核心思路:PCCL的核心思路是通过定制和优化集合通信操作(特别是all-gather和reduce-scatter),以最大限度地利用GPU超级计算机上的所有可用资源。这种定制化设计旨在克服现有库的局限性,并实现更高的通信效率和可扩展性。

技术框架:PCCL作为一个独立的通信库,可以替代现有的RCCL或Cray-MPICH。其主要组成部分是高度优化的all-gather和reduce-scatter操作的实现。具体架构细节未知,但可以推测PCCL可能包含针对特定硬件架构(如Frontier)的优化,以及用于资源管理和任务调度的模块。

关键创新:PCCL的关键创新在于其针对分布式深度学习工作负载的定制化优化。与通用集合通信库不同,PCCL专门为LLM训练中的特定通信模式(如all-gather和reduce-scatter)设计,从而能够实现更高的性能。

关键设计:论文中没有提供关于PCCL具体实现细节的详细信息,例如使用的编程模型、数据布局、通信协议等。这些细节可能涉及底层CUDA编程、GPU间通信优化以及网络拓扑感知的路由策略。具体参数设置、损失函数和网络结构等信息与PCCL本身的设计关系不大,而是与使用的LLM模型相关。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PCCL在Frontier的2048个GCD上,all-gather操作的性能比RCCL提高了6-33倍,比Cray-MPICH提高了28-70倍。在GPT-3风格的训练中,对于7B和13B参数模型,PCCL分别比RCCL提供了高达60%和40%的加速。这些结果表明PCCL在实际应用中具有显著的性能优势。

🎯 应用场景

PCCL可广泛应用于需要大规模分布式训练的深度学习任务,尤其是在GPU超级计算机上训练大型语言模型。该库的优化能够显著缩短训练时间,降低计算成本,并推动更大规模、更复杂的模型的研究和应用,例如自然语言处理、计算机视觉等领域。

📄 摘要(原文)

We evaluate the current state of collective communication on GPU-based supercomputers for large language model (LLM) training at scale. Existing libraries such as RCCL and Cray-MPICH exhibit critical limitations on systems such as Frontier -- Cray-MPICH underutilizes network and compute resources, while RCCL suffers from severe scalability issues. To address these challenges, we introduce PCCL, a communication library with highly optimized implementations of all-gather and reduce-scatter operations tailored for distributed deep learning workloads. PCCL is designed to maximally utilize all available network and compute resources and to scale efficiently to thousands of GPUs. It achieves substantial performance improvements, delivering 6-33x speedups over RCCL and 28-70x over Cray-MPICH for all-gather on 2048 GCDs of Frontier. These gains translate directly to end-to-end performance: in large-scale GPT-3-style training, PCCL provides up to 60% and 40% speedups over RCCL for 7B and 13B parameter models, respectively.