A Few GPUs, A Whole Lotta Scale: Faithful LLM Training Emulation with PrismLLM

📄 arXiv: 2605.15617v1 📥 PDF

作者: Shaoke Xi, ChonLam Lao, Boyi Jia, Jiaqi Gao, Zhipeng Zhang, Jiamin Cao, Brian Sutioso, Erci Xu, Minlan Yu, Kui Ren, Yong Li, Zhengping Qian, Ennan Zhai, Jingren Zhou

分类: cs.DC, cs.AI

发布日期: 2026-05-15

备注: 13 pages body, 21 pages total


💡 一句话要点

PrismLLM:利用少量GPU实现大规模LLM训练的忠实仿真

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 LLM训练 GPU集群 仿真 性能优化 混合仿真 执行图 规模化训练

📋 核心要点

  1. 大规模LLM训练依赖昂贵的GPU集群,开发调试和性能优化面临资源瓶颈,难以复现生产环境问题。
  2. PrismLLM通过切片构建高保真执行图,采用混合仿真策略,用少量GPU模拟大规模集群行为。
  3. 实验表明,PrismLLM能精确复现性能和内存行为,仅需少量GPU即可模拟大规模集群训练。

📝 摘要(中文)

当前的大语言模型(LLM)训练依赖于数千个GPU组成的集群。虽然这种规模促进了模型的快速发展,但训练框架的开发、调试和性能调优变得复杂且成本高昂。工程师通常需要重现生产环境的行为来诊断故障或评估优化,这需要频繁甚至独占地访问生产规模的集群,但大多数GPU已用于生产工作负载,这使得访问变得困难。仿真依赖于复杂的性能模型,难以维护,而缩小规模的实验通常无法捕捉到与规模相关的行为。我们提出了PrismLLM,它将大规模执行与访问大型集群的需求解耦,使工程师能够仅使用少量GPU,在忠实的大规模行为下运行和观察感兴趣的ranks。PrismLLM通过基于切片的方法构建高保真执行图,该方法捕获目标规模的计算、通信和依赖关系。然后,PrismLLM执行混合仿真,其中选定的ranks执行原始程序,而其余ranks则作为虚拟参与者进行重放。对大规模LLM训练工作负载的实验表明,PrismLLM能够准确地重现性能和内存行为,迭代时间的平均误差仅为0.58%,峰值GPU内存使用量的误差小于0.01%。PrismLLM可以使用不到原始部署所需物理GPU的1%来模拟高达8192个GPU的集群。

🔬 方法详解

问题定义:论文旨在解决大规模LLM训练中,由于依赖昂贵的GPU集群,导致开发、调试和性能优化困难的问题。现有方法,如仿真,依赖复杂的性能模型,难以维护;缩小规模的实验无法捕捉到与规模相关的行为。因此,如何在资源有限的情况下,准确模拟大规模LLM训练过程,是本文要解决的核心问题。

核心思路:PrismLLM的核心思路是将大规模执行与大规模集群的访问需求解耦。它通过构建高保真执行图,并采用混合仿真策略,使得工程师可以使用少量GPU,在忠实的大规模行为下运行和观察感兴趣的ranks。这样,既避免了对大规模集群的依赖,又保证了仿真的准确性。

技术框架:PrismLLM的整体框架包括以下几个主要阶段:1) 构建高保真执行图:通过基于切片的方法,捕获目标规模的计算、通信和依赖关系。2) 混合仿真:选定的ranks执行原始程序,而其余ranks则作为虚拟参与者进行重放。3) 性能和内存行为重现:通过上述方法,准确地重现大规模LLM训练的性能和内存行为。

关键创新:PrismLLM的关键创新在于其混合仿真策略和高保真执行图的构建方法。混合仿真策略允许部分ranks执行真实计算,而其他ranks则进行重放,从而在保证仿真准确性的同时,降低了资源需求。高保真执行图的构建,则保证了仿真能够准确地捕捉到大规模LLM训练的计算、通信和依赖关系。

关键设计:PrismLLM的关键设计包括:1) 基于切片的执行图构建方法,用于捕获大规模LLM训练的计算、通信和依赖关系。2) 混合仿真策略,用于在少量GPU上模拟大规模集群的行为。3) 虚拟参与者的重放机制,用于模拟未执行真实计算的ranks的行为。

📊 实验亮点

实验结果表明,PrismLLM能够准确地重现大规模LLM训练的性能和内存行为,迭代时间的平均误差仅为0.58%,峰值GPU内存使用量的误差小于0.01%。更重要的是,PrismLLM可以使用不到原始部署所需物理GPU的1%来模拟高达8192个GPU的集群,极大地降低了资源需求。

🎯 应用场景

PrismLLM可应用于LLM训练框架的开发、调试和性能优化。它能帮助工程师在资源有限的情况下,快速诊断故障、评估优化方案,并降低对大规模GPU集群的依赖。此外,该技术还可用于研究不同规模集群对LLM训练的影响,以及探索更高效的训练策略。

📄 摘要(原文)

Large language model (LLM) training today runs on clusters spanning thousands of GPUs. While this scale enables rapid model advances, developing, debugging, and performance-tuning the training framework inevitably becomes complex and costly. This is because engineers often need to reproduce production behaviors to diagnose failures or evaluate optimizations, thereby demanding frequent and even exclusive access to production-scale clusters -- which becomes increasingly hard given that the majority of GPUs are already committed to production workloads. Simulation relies on complex performance models that are difficult to maintain, and downscaled experiments often fail to capture scale-dependent behaviors. We present PrismLLM to decouple large-scale execution from the need to access large clusters, enabling engineers to run and observe ranks of interest under faithful large-scale behavior using only a few GPUs. PrismLLM constructs a high-fidelity execution graph via a slicing-based approach that captures computation, communication, and dependencies of the target scale. Then, PrismLLM performs hybrid emulation where selected ranks execute the original program while the remaining ranks are replayed as virtual participants. Experiments on large-scale LLM training workloads show that PrismLLM accurately reproduces performance and memory behavior, achieving only 0.58\% average error in iteration time and less than 0.01\% error in peak GPU memory usage. PrismLLM can emulate clusters of up to 8192 GPUs using fewer than 1\% of the physical GPUs required by the original deployment.