InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers

作者: Chenchen Shou, Guyue Liu, Hao Nie, Huaiyu Meng, Yu Zhou, Yimin Jiang, Wenqing Lv, Yelong Xu, Yuanwei Lu, Zhang Chen, Yanbo Yu, Yichen Shen, Yibo Zhu, Daxin Jiang

分类: cs.NI, cs.DC, cs.LG

发布日期: 2025-02-06 (更新: 2025-08-04)

💡 一句话要点

InfiniteHBD：构建基于光路交换收发器的数据中心级LLM高带宽域

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 高带宽域 光路交换 数据中心 大规模语言模型 硅光子 互连网络 容错性

📋 核心要点

现有HBD架构在扩展性、成本和容错性上存在瓶颈，如NVL-72成本高昂，TPUv3/Dojo易发生故障传播，TPUv4故障半径大。
InfiniteHBD提出了一种以收发器为中心的HBD架构，通过在收发器中嵌入OCS，实现动态交换和可重构拓扑，提升扩展性和容错性。
实验结果表明，InfiniteHBD显著降低了成本和GPU浪费率，同时保持了低跨ToR流量，并提升了模型FLOPs利用率。

📝 摘要（中文）

大规模语言模型（LLM）训练依赖于多维并行，其中高带宽域（HBD）对于通信密集型并行（如张量并行）至关重要。然而，现有的HBD架构在可扩展性、成本和容错能力方面面临根本限制：以交换机为中心的HBD（如NVL-72）导致成本过高，而以GPU为中心的HBD（如TPUv3/Dojo）则存在严重的故障传播问题。交换机-GPU混合HBD（如TPUv4）采取了一种折衷方案，但故障爆炸半径仍然很大。我们提出了InfiniteHBD，一种收发器中心HBD架构，通过在每个收发器中嵌入光路交换（OCS）来集成连接和动态交换。它实现了可重配置的点对多点通信和可扩展的可变大小环形拓扑。InfiniteHBD实现了数据中心规模的可扩展性，而不会导致成本爆炸，在节点级别实现故障隔离，并为健康的GPU实现完全的带宽利用率。关键创新包括基于硅光子的OCS收发器（OCSTrx）、可重配置的k跳环形拓扑和HBD-DCN编排算法。评估表明，InfiniteHBD将成本降低到NVL-72的31%，实现了接近于零的GPU浪费率（比NVL-72和TPUv4低10倍以上），在7%的节点故障率下保持接近于零的跨ToR流量，并且与NVIDIA DGX（8个GPU/节点）相比，模型FLOPs利用率提高了3.37倍。

🔬 方法详解

问题定义：现有数据中心用于LLM训练的高带宽互连方案，如NVLink和TPU互连，在扩展到数据中心级别时面临成本高昂、容错性差等问题。具体来说，交换机中心架构成本随规模线性增长，GPU中心架构则存在单点故障扩散的风险。混合架构虽然有所改进，但故障影响范围仍然较大。

核心思路：论文的核心在于将光路交换（OCS）技术集成到每个收发器中，构建一个收发器中心的高带宽域。通过动态配置光路连接，实现灵活的点对多点通信和可扩展的环形拓扑。这种设计旨在在成本、可扩展性和容错性之间取得更好的平衡。

技术框架：InfiniteHBD的整体架构包括：1) 基于硅光子的OCS收发器（OCSTrx），负责光信号的发送、接收和交换；2) 可重配置的k跳环形拓扑，提供灵活的连接方式；3) HBD-DCN编排算法，用于动态配置光路连接，优化通信效率和容错性。该架构将计算节点（包含GPU）通过OCSTrx连接成环，并通过控制OCSTrx的光路开关实现动态的节点间通信。

关键创新：最重要的创新在于将OCS集成到收发器中，实现了收发器级别的动态交换。这与传统的交换机中心架构和GPU中心架构有着本质区别。通过这种方式，可以避免传统交换机带来的成本瓶颈，并实现更细粒度的故障隔离。此外，可重配置的k跳环形拓扑也提供了更高的灵活性和容错性。

关键设计：OCSTrx的设计是关键。具体参数未知，但可以推测其关键在于硅光子器件的集成度、光开关的切换速度和功耗。HBD-DCN编排算法也至关重要，它需要根据LLM训练的通信模式动态调整光路连接，以最大化带宽利用率和容错性。具体的算法细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InfiniteHBD将成本降低到NVL-72的31%，GPU浪费率降低到接近于零（比NVL-72和TPUv4低10倍以上），在7%的节点故障率下保持接近于零的跨ToR流量，并且与NVIDIA DGX相比，模型FLOPs利用率提高了3.37倍。这些数据表明InfiniteHBD在成本、效率和容错性方面具有显著优势。

🎯 应用场景

InfiniteHBD有望应用于大规模语言模型的训练和推理，特别是在需要高带宽、低延迟和高容错性的数据中心环境中。该技术可以降低LLM训练的成本，提高训练效率，并提升系统的可靠性。此外，该架构也可能扩展到其他需要高性能互连的应用领域，如科学计算、金融建模等。

📄 摘要（原文）

Scaling Large Language Model (LLM) training relies on multi-dimensional parallelism, where High-Bandwidth Domains (HBDs) are critical for communication-intensive parallelism like Tensor Parallelism. However, existing HBD architectures face fundamental limitations in scalability, cost, and fault resiliency: switch-centric HBDs (e.g., NVL-72) incur prohibitive scaling costs, while GPU-centric HBDs (e.g., TPUv3/Dojo) suffer from severe fault propagation. Switch-GPU hybrid HBDs (e.g., TPUv4) take a middle-ground approach, but the fault explosion radius remains large. We propose InfiniteHBD, a transceiver-centric HBD architecture that integrates connectivity and dynamic switching at the transceiver level by embedding Optical Circuit Switching (OCS) within each transceiver. It enables reconfigurable point-to-multipoint communication and scalable variable-size ring topologies. InfiniteHBD achieves datacenter-scale scalability without cost explosion, fault isolation at the node level, and full bandwidth utilization for healthy GPUs. Key innovations include a Silicon Photonic-based OCS transceiver (OCSTrx), a reconfigurable k-hop ring topology, and an HBD-DCN orchestration algorithm. The evaluation demonstrates that InfiniteHBD reduces cost to 31% of NVL-72, achieves a near-zero GPU waste ratio (over 10x lower than NVL-72 and TPUv4), maintains near-zero cross-ToR traffic under 7% node fault ratio, and improves Model FLOPs Utilization by 3.37x compared to NVIDIA DGX (8 GPUs/node).

InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理