Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

作者: Jinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

分类: cs.CL

发布日期: 2026-02-12

🔗 代码/项目: GITHUB

💡 一句话要点

提出SPES框架，解决MoE LLM在低显存GPU上的分布式预训练难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 混合专家模型 分布式训练 去中心化学习 低资源训练

📋 核心要点

现有去中心化训练方法仍需在每个节点上训练完整模型，受限于GPU内存。预训练大型MoE模型需要大量高显存GPU，成本高昂。
SPES框架仅在每个节点训练部分专家，降低内存占用，并通过专家同步实现知识共享，避免全参数传输，提升训练效率。
实验表明，SPES框架在低显存GPU上训练的MoE模型性能与集中式训练模型相当，并展现出良好的可扩展性。

📝 摘要（中文）

本文提出了一种名为稀疏专家同步（SPES）的内存高效的去中心化框架，用于预训练混合专家（MoE）大型语言模型（LLM）。SPES仅在每个节点上训练一部分专家，从而显著降低了内存占用。每个节点更新其本地专家，并定期与其他节点同步，消除了完整参数传输，同时确保了高效的知识共享。为了加速收敛，我们引入了一种专家合并预热策略，在该策略中，专家在训练早期交换知识，以快速建立基础能力。借助SPES，我们使用16个独立的48GB GPU通过互联网连接训练了一个20亿参数的MoE LLM，在相似的计算预算下，该模型实现了与集中式训练的LLM相当的性能。我们进一步通过从头开始训练一个70亿参数的模型以及从密集检查点升级改造一个90亿参数的模型来证明了可扩展性，这两个模型都与先前的集中式基线相匹配。我们的代码可在https://github.com/zjr2000/SPES上找到。

🔬 方法详解

问题定义：论文旨在解决大型混合专家（MoE）语言模型在资源受限的分布式环境下的预训练问题。现有去中心化训练方法虽然降低了通信开销，但仍然需要在每个节点上存储和训练整个模型，这对于显存有限的GPU来说是一个巨大的挑战。因此，如何在低显存GPU上高效地预训练大型MoE模型是本文要解决的核心问题。

核心思路：论文的核心思路是利用MoE模型的稀疏性，只在每个节点上训练一部分专家，从而显著降低内存占用。通过周期性的专家同步，不同节点上的专家可以互相学习，从而实现知识共享，避免模型性能下降。这种方法避免了全参数传输，降低了通信开销，使得在低显存GPU上训练大型MoE模型成为可能。

技术框架：SPES框架包含以下几个主要模块：1) 局部专家训练：每个节点只训练一部分专家，并使用标准的反向传播算法更新这些专家的参数。2) 专家同步：节点之间定期交换专家参数，实现知识共享。3) 专家合并预热：在训练初期，专家之间进行更频繁的知识交换，以加速模型的收敛。整个流程是去中心化的，不需要中心服务器协调。

关键创新：SPES框架的关键创新在于稀疏专家训练和专家同步机制。与传统的去中心化训练方法相比，SPES不需要在每个节点上训练整个模型，从而显著降低了内存占用。专家同步机制保证了不同节点上的专家可以互相学习，避免了模型性能下降。专家合并预热策略进一步加速了模型的收敛。

关键设计：专家同步的频率是一个关键参数，需要根据具体的硬件环境和模型大小进行调整。专家合并预热策略中，知识交换的频率和方式也需要仔细设计。论文中使用了简单的平均参数的方式进行专家合并。损失函数采用标准的语言模型损失函数，例如交叉熵损失。

🖼️ 关键图片

📊 实验亮点

SPES框架使用16个48GB GPU训练了一个20亿参数的MoE LLM，性能与集中式训练模型相当。通过从头开始训练一个70亿参数的模型以及从密集检查点升级改造一个90亿参数的模型，验证了SPES框架的可扩展性，并且性能与先前的集中式基线相匹配。这些结果表明SPES框架在低成本硬件上训练大型LLM具有显著优势。

🎯 应用场景

该研究成果可应用于资源受限环境下的LLM预训练，例如在边缘设备或个人工作站上训练定制化LLM。它降低了LLM训练的硬件门槛，使得更多研究者和开发者能够参与到LLM的研究和应用中。此外，该方法还可以用于联邦学习场景，保护用户隐私的同时，实现模型的分布式训练。

📄 摘要（原文）

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理