HetCCL: Enabling Collective Communication For Mixed-Vendor Heterogeneous Clusters

📄 arXiv: 2605.31000v1 📥 PDF

作者: Yuejie Wang, Tao Chang, Yuanyuan Zhao, Yulong Ao, Zeyu Gu, Zhiyu Li, Yanmin Jia, Yan Zhang, Mingjun Zhang, He Liu, Yongzhe He, Yonghua Lin, Guyue Liu

分类: cs.NI, cs.LG

发布日期: 2026-05-29


💡 一句话要点

HetCCL:为混合异构集群实现高效的集合通信

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异构计算 集合通信 大规模语言模型 分布式训练 P2P传输

📋 核心要点

  1. 现有集合通信框架在异构集群上训练LLM时效率低下,主要由于硬件差异和数据传输开销。
  2. HetCCL通过高效的异构P2P传输和分层拓扑抽象,优化跨集群数据传输和带宽利用率。
  3. 实验表明,HetCCL在异构通信带宽上优于Gloo,并显著加速了端到端LLM训练。

📝 摘要(中文)

在大规模语言模型(LLM)的训练中,异构集群由于来自不同供应商的硬件具有不同的网络和计算特性,给集合通信带来了巨大的挑战。现有的为同构环境设计的集合通信框架(如NCCL、RCCL)无法解决混合硬件设置的问题,而具有异构支持的通信库(如Gloo、OpenMPI)在数据路径中会产生大量的开销。本文提出了HetCCL,该框架通过高效的异构设备(如GPU)之间的P2P传输来实现异构集合通信,消除了主机-设备内存复制的开销,同时将控制卸载到CPU。对于组合集合通信(如AllReduce、ReduceScatter),HetCCL引入了一种边界通信器机制,通过利用供应商集合通信库中组合集合通信的内在归约来实现供应商独立性。凭借高效的异构P2P传输和可移植的归约机制,HetCCL提出了一种用于异构集群的分层拓扑抽象,将集合通信分解为集群级原语,从而保证了最佳的跨集群数据传输量和最佳的带宽利用率。我们在支持4个不同供应商的硬件上实现了HetCCL,并在4个异构设置中使用基准测试和端到端LLM任务对其进行了评估。评估结果表明,HetCCL在异构通信中实现了比Gloo高17-19倍的带宽,并在每步时间的端到端训练中加速了高达16.9%。

🔬 方法详解

问题定义:论文旨在解决在混合供应商异构集群上训练大规模语言模型时,集合通信效率低下的问题。现有方法,如NCCL/RCCL,是为同构环境设计的,无法有效利用异构硬件资源。而Gloo/OpenMPI等虽然支持异构环境,但引入了过多的数据路径开销,导致整体性能下降。

核心思路:HetCCL的核心思路是通过高效的异构P2P传输和分层拓扑抽象来优化集合通信。利用P2P传输避免了主机-设备之间的内存拷贝开销,而分层拓扑抽象则保证了跨集群数据传输的最优数据量和带宽利用率。此外,通过边界通信器机制,实现了供应商无关的归约操作。

技术框架:HetCCL的整体框架包含以下几个主要模块:1) 异构P2P传输模块,负责在不同供应商的GPU之间建立高效的直接数据传输通道;2) 边界通信器模块,用于在不同供应商的集合通信库之间进行数据归约,实现供应商无关性;3) 分层拓扑抽象模块,将异构集群抽象为多层结构,优化跨集群的数据传输路径和数据量。控制逻辑卸载到CPU,减轻GPU负担。

关键创新:HetCCL的关键创新在于:1) 提出了高效的异构P2P传输机制,避免了主机-设备内存拷贝的瓶颈;2) 引入了边界通信器机制,实现了供应商无关的归约操作,提高了框架的通用性和可移植性;3) 设计了分层拓扑抽象,优化了跨集群的数据传输,最大化带宽利用率。

关键设计:HetCCL的关键设计包括:1) 异构P2P传输的实现细节,例如如何建立不同供应商GPU之间的直接通信通道,以及如何优化数据传输协议;2) 边界通信器的具体实现方式,例如如何选择合适的归约算法,以及如何处理不同供应商集合通信库之间的兼容性问题;3) 分层拓扑抽象的层次划分和数据路由策略,例如如何根据集群的网络拓扑和硬件配置,选择最优的数据传输路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HetCCL在异构通信中实现了比Gloo高17-19倍的带宽。在端到端LLM训练任务中,HetCCL相比现有方法,将每步训练时间加速了高达16.9%。这些实验结果表明,HetCCL在异构集群上具有显著的性能优势,能够有效提高大规模模型训练的效率。

🎯 应用场景

HetCCL可应用于各种需要大规模分布式训练的场景,尤其是在拥有多种异构硬件资源的环境中,例如大型AI研究机构、云计算平台等。通过提高集合通信效率,HetCCL能够加速模型训练过程,降低训练成本,并促进更大规模模型的开发和应用。未来,HetCCL有望成为异构计算领域的重要基础设施。

📄 摘要(原文)

Training Large Language Models (LLMs) on heterogeneous clusters presents significant challenges for collective communication, as hardware from multiple vendors introduces diverse network and computational characteristics. Existing collective communication frameworks (e.g., NCCL, RCCL) designed for homogeneous environments fail to address mixed-hardware setups, while communication libraries with heterogeneous support (e.g., Gloo, OpenMPI) incur heavy overhead in the data path. This paper presents HetCCL, a framework that enables heterogeneous collective communication by efficient P2P transport across heterogeneous devices (e.g., GPUs), eliminating the host-device memory copy overhead while offloading the control to the CPUs. For combining collectives (e.g., AllReduce, ReduceScatter), HetCCL introduces a border-communicator mechanism that achieves vendor independence by using the intrinsic reduction in the combining collectives in vendor collective communication libraries. With efficient heterogeneous P2P transport and portable reduction mechanism, HetCCL proposes a hierarchical topology abstraction for heterogeneous clusters, dissecting collective communication into cluster-level primitives that guarantee optimal cross-cluster data transfer volume and optimal bandwidth utilization. We implement HetCCL with 4 different vendor support and evaluate it in 4 heterogeneous settings with benchmarks and end-to-end LLM tasks. Our evaluation shows that HetCCL achieves 17-19x higher bandwidth than Gloo in heterogeneous communications, and speeds up end-to-end training by up to 16.9% in the per-step-time.