Heterogeneous Low-Bandwidth Pre-Training of LLMs
作者: Yazan Obeidi, Amir Sarfi, Joel Lidin, Paul Janson, Eugene Belilovsky
分类: cs.LG
发布日期: 2026-01-05
💡 一句话要点
提出异构低带宽预训练框架,结合SparseLoCo与压缩流水线并行,提升LLM训练效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大规模语言模型 预训练 分布式训练 低带宽 模型并行
📋 核心要点
- 现有LLM预训练受限于分布式计算中的带宽瓶颈,模型并行通信开销巨大,难以扩展到资源受限的环境。
- 论文提出异构分布式训练框架,结合SparseLoCo的数据并行和压缩流水线模型并行,降低通信成本。
- 实验表明,激活压缩与SparseLoCo结合有效,选择性压缩在损失-通信权衡方面优于全局压缩,尤其在高压缩比下。
📝 摘要(中文)
大规模语言模型(LLM)的预训练越来越依赖分布式计算,但带宽限制使得扩展到良好配置的数据中心之外变得困难,特别是当模型并行性强制频繁的大型设备间通信时。本文研究了SparseLoCo(一种基于不频繁同步和稀疏伪梯度交换的低通信数据并行方法)是否可以与通过激活和激活梯度压缩实现的低带宽流水线模型并行相结合。我们引入了一个异构分布式训练框架,其中一些参与者在高带宽互连上托管完整副本,而资源受限的参与者被分组以使用具有子空间投影级间通信的流水线并行来共同实例化一个副本。为了使最近引入的子空间流水线压缩与SparseLoCo兼容,我们研究了许多适配方法。在标准预训练语料库上的大规模语言建模实验(1.78亿-10亿参数)中,我们发现激活压缩以适度的成本与SparseLoCo结合使用,而选择性(异构)压缩始终改善相对于压缩所有副本的损失-通信权衡,尤其是在激进的压缩比率下。这些结果表明,将低带宽模型并行性和异构参与者纳入LLM预训练是一种切实可行的方法。
🔬 方法详解
问题定义:大规模语言模型(LLM)的预训练需要大量的计算资源和通信带宽。传统的模型并行方法,尤其是在数据中心之外的资源受限环境中,由于设备间频繁的大规模通信,受到带宽的严重限制。现有方法难以在异构计算资源下高效地进行LLM预训练。
核心思路:论文的核心思路是结合SparseLoCo(一种低通信的数据并行方法)和压缩流水线模型并行,构建一个异构分布式训练框架。通过SparseLoCo减少数据并行中的通信频率,并通过激活和激活梯度压缩降低流水线并行中的通信量。同时,允许异构的计算节点参与训练,充分利用不同节点的资源。
技术框架:该框架包含以下主要模块:1) 数据并行:使用SparseLoCo进行数据并行训练,减少同步频率。2) 模型并行:使用流水线并行将模型划分到多个资源受限的节点上。3) 压缩模块:对激活和激活梯度进行压缩,降低流水线并行中的通信量。4) 异构支持:允许部分节点拥有完整模型副本,而其他节点通过流水线并行共同构成一个副本。
关键创新:该论文的关键创新在于:1) 提出了一种异构分布式训练框架,能够有效地利用不同计算能力的节点进行LLM预训练。2) 将SparseLoCo与压缩流水线并行相结合,在降低通信量的同时,保持了训练的有效性。3) 研究了选择性(异构)压缩策略,即只对资源受限的节点进行压缩,从而进一步优化了损失-通信权衡。
关键设计:1) SparseLoCo的参数设置:需要调整同步频率和稀疏梯度交换的比例,以平衡通信成本和模型收敛速度。2) 激活和激活梯度压缩:采用子空间投影压缩方法,需要选择合适的子空间维度和压缩比率。3) 异构节点分组:需要根据节点的计算能力和带宽进行合理分组,以实现最佳的流水线并行效率。4) 损失函数:使用标准的语言模型预训练损失函数,如交叉熵损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,激活压缩可以与SparseLoCo有效结合,且选择性压缩策略在损失-通信权衡方面优于全局压缩,尤其是在高压缩比下。在1.78亿-10亿参数的LLM预训练中,该方法能够显著降低通信成本,同时保持模型的性能。
🎯 应用场景
该研究成果可应用于在资源受限的环境中进行大规模语言模型的预训练,例如在边缘设备、低带宽网络或异构计算集群上。这有助于降低LLM的训练成本,并促进LLM在更广泛的应用场景中的部署,例如移动设备上的智能助手、物联网设备上的自然语言处理等。
📄 摘要(原文)
Pre-training large language models (LLMs) increasingly requires distributed compute, yet bandwidth constraints make it difficult to scale beyond well-provisioned datacenters-especially when model parallelism forces frequent, large inter-device communications. We study whether SparseLoCo, a low-communication data parallel method based on infrequent synchronization and sparse pseudo-gradient exchange, can be combined with low-bandwidth pipeline model parallelism via activation and activation-gradient compression. We introduce a heterogeneous distributed training framework where some participants host full replicas on high-bandwidth interconnects, while resource-limited participants are grouped to jointly instantiate a replica using pipeline parallelism with subspace-projected inter-stage communication. To make the recently introduced subspace pipeline compression compatible with SparseLoCo, we study a number of adaptations. Across large-scale language modeling experiments (178M-1B parameters) on standard pretraining corpora, we find that activation compression composes with SparseLoCo at modest cost, while selective (heterogeneous) compression consistently improves the loss-communication tradeoff relative to compressing all replicas-especially at aggressive compression ratios. These results suggest a practical path to incorporating low-bandwidth model parallelism and heterogeneous participants into LLM pre-training.