Horizon-LM: A RAM-Centric Architecture for LLM Training

📄 arXiv: 2602.04816v1 📥 PDF

作者: Zhengqing Yuan, Lichao Sun, Yanfang, Ye

分类: cs.OS, cs.CL, cs.DC

发布日期: 2026-02-04


💡 一句话要点

Horizon-LM:一种以内存为中心的LLM训练架构,突破GPU限制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型训练 内存中心架构 CPU卸载 单节点训练 模型并行 流水线执行 显式重计算 梯度传播

📋 核心要点

  1. 现有LLM训练受限于GPU内存,即使采用分布式和卸载策略,仍依赖GPU存储模型副本和自动微分图,限制了模型规模和训练效率。
  2. Horizon-LM将主机内存作为权威参数存储,GPU仅作为瞬态计算引擎,通过CPU主控、GPU模板执行模型,解耦模型规模与GPU数量。
  3. 实验表明,Horizon-LM在单H200 GPU上可训练120B参数模型,在单A100机器上比DeepSpeed ZeRO-3吞吐量提升高达12.2倍。

📝 摘要(中文)

大型语言模型(LLM)的快速增长已经超过了单GPU硬件的发展速度,使得模型规模越来越受到内存容量的限制,而非计算能力。虽然现代训练系统通过分布式并行和跨CPU及存储层的卸载来扩展GPU内存,但它们从根本上保留了一种以GPU为中心的执行范式,其中GPU承载持久的模型副本和完整的自动微分图。因此,扩展大型模型仍然与多GPU集群、复杂的分布式运行时和不可预测的主机内存消耗紧密相关,这为节点规模的后训练工作负载(如指令调优、对齐和领域自适应)造成了巨大的障碍。我们提出了Horizon-LM,一种以内存为中心的训练系统,它重新定义了CPU和GPU在大型模型优化中的角色。Horizon-LM将主机内存视为权威的参数存储,并通过CPU主控、GPU模板执行模型,仅将GPU用作瞬态计算引擎。通过消除持久的GPU驻留模块和自动微分图,采用显式重计算和手动梯度传播,并引入流水线式的双缓冲执行引擎,Horizon-LM将模型规模与GPU数量解耦,并将内存使用量限制在理论参数占用空间内。在具有1.5TB主机RAM的单个H200 GPU上,Horizon-LM可以可靠地训练高达120B参数的模型。在标准的单个A100机器上,Horizon-LM实现了比使用CPU卸载的DeepSpeed ZeRO-3高出12.2倍的训练吞吐量,同时保持了数值正确性。在各种平台和规模上,Horizon-LM都能维持高设备利用率和可预测的内存增长,这表明主机内存,而不是GPU内存,定义了节点规模大型模型训练的真正可行性边界。

🔬 方法详解

问题定义:现有的大型语言模型训练系统严重依赖GPU内存,即使采用了数据并行、模型并行以及CPU卸载等技术,仍然无法突破GPU内存的限制。这导致模型规模的扩展受到阻碍,并且训练过程复杂,需要依赖多GPU集群和复杂的分布式运行时,同时主机内存的消耗也难以预测。这些问题使得在单节点上进行后训练任务,例如指令调优、对齐和领域自适应等变得非常困难。

核心思路:Horizon-LM的核心思路是将主机内存作为模型参数的权威存储,而GPU仅作为瞬态的计算引擎。通过这种方式,模型规模不再受限于GPU内存的大小,而是取决于主机内存的容量。这种设计解耦了模型规模和GPU数量,使得在单节点上训练超大模型成为可能。

技术框架:Horizon-LM采用CPU主控、GPU模板的执行模型。CPU负责管理模型参数和梯度,并协调GPU进行计算。GPU从CPU获取模型参数,执行前向和反向传播计算,并将梯度返回给CPU。为了进一步提高效率,Horizon-LM引入了流水线式的双缓冲执行引擎,使得CPU和GPU可以并行工作,从而提高整体的训练吞吐量。此外,Horizon-LM还采用了显式重计算和手动梯度传播,避免了在GPU上存储自动微分图,从而节省了GPU内存。

关键创新:Horizon-LM最重要的技术创新在于其以内存为中心的架构。与传统的以GPU为中心的训练系统不同,Horizon-LM将主机内存作为模型参数的权威存储,从而突破了GPU内存的限制。此外,Horizon-LM还采用了流水线式的双缓冲执行引擎、显式重计算和手动梯度传播等技术,进一步提高了训练效率。

关键设计:Horizon-LM的关键设计包括:1) CPU主控、GPU模板的执行模型;2) 流水线式的双缓冲执行引擎,用于CPU和GPU的并行计算;3) 显式重计算,避免存储自动微分图;4) 手动梯度传播,减少GPU内存占用;5) 针对CPU和GPU之间数据传输的优化策略,以减少通信开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Horizon-LM在单H200 GPU(1.5TB主机RAM)上成功训练了高达120B参数的模型。在单A100机器上,Horizon-LM的训练吞吐量比使用CPU卸载的DeepSpeed ZeRO-3高出12.2倍,同时保持了数值正确性。实验结果表明,Horizon-LM能够维持高设备利用率和可预测的内存增长,验证了其以内存为中心的架构的有效性。

🎯 应用场景

Horizon-LM适用于各种需要大规模语言模型训练的场景,尤其是在资源受限的单节点环境下。例如,研究人员和开发者可以使用Horizon-LM在单台配备大内存的服务器上进行指令调优、模型对齐和领域自适应等后训练任务。该技术降低了训练超大模型的门槛,加速了LLM在各个领域的应用。

📄 摘要(原文)

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2$\times$ higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.