InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers
作者: Chenchen Shou, Guyue Liu, Hao Nie, Huaiyu Meng, Yu Zhou, Yimin Jiang, Wenqing Lv, Yelong Xu, Yuanwei Lu, Zhang Chen, Yanbo Yu, Yichen Shen, Yibo Zhu, Daxin Jiang
分类: cs.NI, cs.DC, cs.LG
发布日期: 2025-02-06 (更新: 2025-08-04)
💡 一句话要点
InfiniteHBD:构建基于光路交换收发器的数据中心级LLM高带宽域
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 高带宽域 光路交换 数据中心 大规模语言模型 硅光子 互连网络 容错性
📋 核心要点
- 现有HBD架构在扩展性、成本和容错性上存在瓶颈,如NVL-72成本高昂,TPUv3/Dojo易发生故障传播,TPUv4故障半径大。
- InfiniteHBD提出了一种以收发器为中心的HBD架构,通过在收发器中嵌入OCS,实现动态交换和可重构拓扑,提升扩展性和容错性。
- 实验结果表明,InfiniteHBD显著降低了成本和GPU浪费率,同时保持了低跨ToR流量,并提升了模型FLOPs利用率。
📝 摘要(中文)
大规模语言模型(LLM)训练依赖于多维并行,其中高带宽域(HBD)对于通信密集型并行(如张量并行)至关重要。然而,现有的HBD架构在可扩展性、成本和容错能力方面面临根本限制:以交换机为中心的HBD(如NVL-72)导致成本过高,而以GPU为中心的HBD(如TPUv3/Dojo)则存在严重的故障传播问题。交换机-GPU混合HBD(如TPUv4)采取了一种折衷方案,但故障爆炸半径仍然很大。我们提出了InfiniteHBD,一种收发器中心HBD架构,通过在每个收发器中嵌入光路交换(OCS)来集成连接和动态交换。它实现了可重配置的点对多点通信和可扩展的可变大小环形拓扑。InfiniteHBD实现了数据中心规模的可扩展性,而不会导致成本爆炸,在节点级别实现故障隔离,并为健康的GPU实现完全的带宽利用率。关键创新包括基于硅光子的OCS收发器(OCSTrx)、可重配置的k跳环形拓扑和HBD-DCN编排算法。评估表明,InfiniteHBD将成本降低到NVL-72的31%,实现了接近于零的GPU浪费率(比NVL-72和TPUv4低10倍以上),在7%的节点故障率下保持接近于零的跨ToR流量,并且与NVIDIA DGX(8个GPU/节点)相比,模型FLOPs利用率提高了3.37倍。
🔬 方法详解
问题定义:现有数据中心用于LLM训练的高带宽互连方案,如NVLink和TPU互连,在扩展到数据中心级别时面临成本高昂、容错性差等问题。具体来说,交换机中心架构成本随规模线性增长,GPU中心架构则存在单点故障扩散的风险。混合架构虽然有所改进,但故障影响范围仍然较大。
核心思路:论文的核心在于将光路交换(OCS)技术集成到每个收发器中,构建一个收发器中心的高带宽域。通过动态配置光路连接,实现灵活的点对多点通信和可扩展的环形拓扑。这种设计旨在在成本、可扩展性和容错性之间取得更好的平衡。
技术框架:InfiniteHBD的整体架构包括:1) 基于硅光子的OCS收发器(OCSTrx),负责光信号的发送、接收和交换;2) 可重配置的k跳环形拓扑,提供灵活的连接方式;3) HBD-DCN编排算法,用于动态配置光路连接,优化通信效率和容错性。该架构将计算节点(包含GPU)通过OCSTrx连接成环,并通过控制OCSTrx的光路开关实现动态的节点间通信。
关键创新:最重要的创新在于将OCS集成到收发器中,实现了收发器级别的动态交换。这与传统的交换机中心架构和GPU中心架构有着本质区别。通过这种方式,可以避免传统交换机带来的成本瓶颈,并实现更细粒度的故障隔离。此外,可重配置的k跳环形拓扑也提供了更高的灵活性和容错性。
关键设计:OCSTrx的设计是关键。具体参数未知,但可以推测其关键在于硅光子器件的集成度、光开关的切换速度和功耗。HBD-DCN编排算法也至关重要,它需要根据LLM训练的通信模式动态调整光路连接,以最大化带宽利用率和容错性。具体的算法细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InfiniteHBD将成本降低到NVL-72的31%,GPU浪费率降低到接近于零(比NVL-72和TPUv4低10倍以上),在7%的节点故障率下保持接近于零的跨ToR流量,并且与NVIDIA DGX相比,模型FLOPs利用率提高了3.37倍。这些数据表明InfiniteHBD在成本、效率和容错性方面具有显著优势。
🎯 应用场景
InfiniteHBD有望应用于大规模语言模型的训练和推理,特别是在需要高带宽、低延迟和高容错性的数据中心环境中。该技术可以降低LLM训练的成本,提高训练效率,并提升系统的可靠性。此外,该架构也可能扩展到其他需要高性能互连的应用领域,如科学计算、金融建模等。
📄 摘要(原文)
Scaling Large Language Model (LLM) training relies on multi-dimensional parallelism, where High-Bandwidth Domains (HBDs) are critical for communication-intensive parallelism like Tensor Parallelism. However, existing HBD architectures face fundamental limitations in scalability, cost, and fault resiliency: switch-centric HBDs (e.g., NVL-72) incur prohibitive scaling costs, while GPU-centric HBDs (e.g., TPUv3/Dojo) suffer from severe fault propagation. Switch-GPU hybrid HBDs (e.g., TPUv4) take a middle-ground approach, but the fault explosion radius remains large. We propose InfiniteHBD, a transceiver-centric HBD architecture that integrates connectivity and dynamic switching at the transceiver level by embedding Optical Circuit Switching (OCS) within each transceiver. It enables reconfigurable point-to-multipoint communication and scalable variable-size ring topologies. InfiniteHBD achieves datacenter-scale scalability without cost explosion, fault isolation at the node level, and full bandwidth utilization for healthy GPUs. Key innovations include a Silicon Photonic-based OCS transceiver (OCSTrx), a reconfigurable k-hop ring topology, and an HBD-DCN orchestration algorithm. The evaluation demonstrates that InfiniteHBD reduces cost to 31% of NVL-72, achieves a near-zero GPU waste ratio (over 10x lower than NVL-72 and TPUv4), maintains near-zero cross-ToR traffic under 7% node fault ratio, and improves Model FLOPs Utilization by 3.37x compared to NVIDIA DGX (8 GPUs/node).