Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective

📄 arXiv: 2509.10371v2 📥 PDF

作者: Seokjin Go, Joongun Park, Spandan More, Hanjiang Wu, Irene Wang, Aaron Jezghani, Tushar Krishna, Divya Mahajan

分类: cs.DC, cs.LG

发布日期: 2025-09-12 (更新: 2025-09-19)

🔗 代码/项目: GITHUB


💡 一句话要点

针对大规模LLM分布式训练,论文从功耗、性能和热管理的角度进行了全面评估与优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分布式训练 大型语言模型 GPU性能 功耗分析 热管理 并行策略 硬件优化

📋 核心要点

  1. 现有LLM训练在多GPU系统上扩展时,缺乏对硬件利用率、功耗和热行为的深入理解,限制了性能优化。
  2. 论文通过在不同硬件平台和并行策略下分析LLM训练,揭示了硬件、系统拓扑和模型执行之间的复杂交互。
  3. 实验表明,硬件扩展并非唯一决定因素,需根据通信限制选择合适的系统架构和优化策略,以提升训练性能。

📝 摘要(中文)

大型语言模型(LLM)的快速扩展已将训练工作负载远远超出了单节点分析的限制,需要更深入地了解这些模型在大型多GPU系统中的行为。本文对各种真实世界的工作负载和硬件平台(包括NVIDIA H100/H200和AMD MI250 GPU)上的LLM训练进行了全面表征。我们分析了各种并行策略(张量、流水线、数据和专家)下的稠密和稀疏模型,并评估了它们对硬件利用率、功耗和热行为的影响。我们进一步评估了激活重计算和计算-通信重叠等优化的有效性。我们的研究结果表明,性能并非仅由扩展硬件容量决定。在通信受限的情况下,具有较少但更高内存GPU的向上扩展系统可以优于横向扩展系统,但前提是经过仔细调整的配置;在其他情况下,横向扩展部署可实现更高的吞吐量。我们还表明,某些并行组合(例如张量与流水线)由于数据分块效率低下而导致带宽利用不足,而将微批量大小增加到超过某个点会导致突发执行和峰值功率偏移,从而加剧热节流。这些见解揭示了训练性能如何受到硬件、系统拓扑和模型执行之间复杂交互的影响。最后,我们为系统和硬件设计提供建议,以提高未来LLM系统和工作负载的可扩展性和可靠性。该项目的源代码可在https://github.com/sitar-lab/CharLLM-PPT上找到。

🔬 方法详解

问题定义:论文旨在解决大规模LLM分布式训练中,如何有效利用多GPU系统资源,提升训练效率的问题。现有方法在扩展硬件容量时,往往忽略了硬件利用率、功耗和热行为等因素,导致性能瓶颈。

核心思路:论文的核心思路是通过对不同硬件平台(NVIDIA H100/H200和AMD MI250 GPU)和并行策略(张量、流水线、数据和专家并行)下的LLM训练进行全面表征,分析硬件利用率、功耗和热行为之间的关系,从而为系统和硬件设计提供优化建议。

技术框架:论文采用实验分析的方法,首先在不同的硬件平台上部署LLM训练任务,然后通过监控硬件利用率、功耗和温度等指标,分析不同并行策略和优化方法对这些指标的影响。最后,根据分析结果,提出针对系统和硬件设计的优化建议。

关键创新:论文的关键创新在于对LLM分布式训练进行了多维度的综合分析,不仅考虑了性能,还关注了功耗和热管理。此外,论文还揭示了硬件、系统拓扑和模型执行之间的复杂交互,为优化LLM训练提供了新的视角。

关键设计:论文的关键设计包括选择具有代表性的硬件平台(NVIDIA H100/H200和AMD MI250 GPU)和并行策略(张量、流水线、数据和专家并行),以及采用合适的监控工具来收集硬件利用率、功耗和温度等指标。此外,论文还对激活重计算和计算-通信重叠等优化方法进行了评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,在通信受限的情况下,具有较少但更高内存GPU的向上扩展系统,在经过仔细调整的配置下,可以优于横向扩展系统。此外,某些并行组合(如张量与流水线)会导致带宽利用不足,而过大的微批量大小会加剧热节流。

🎯 应用场景

该研究成果可应用于大规模语言模型的训练优化,帮助研究人员和工程师更好地理解和利用多GPU系统资源,提升训练效率,降低功耗和散热成本,加速AI模型的开发和部署。

📄 摘要(原文)

The rapid scaling of Large Language Models (LLMs) has pushed training workloads far beyond the limits of single-node analysis, demanding a deeper understanding of how these models behave across large-scale, multi-GPU systems. In this paper, we present a comprehensive characterization of LLM training across diverse real-world workloads and hardware platforms, including NVIDIA H100/H200 and AMD MI250 GPUs. We analyze dense and sparse models under various parallelism strategies -- tensor, pipeline, data, and expert -- and evaluate their effects on hardware utilization, power consumption, and thermal behavior. We further evaluate the effectiveness of optimizations such as activation recomputation and compute-communication overlap. Our findings show that performance is not determined solely by scaling hardware capacity. Scale-up systems with fewer, higher-memory GPUs can outperform scale-out systems in communication-bound regimes, but only under carefully tuned configurations; in other cases, scale-out deployments achieve superior throughput. We also show that certain parallelism combinations, such as tensor with pipeline, lead to bandwidth underutilization due to inefficient data chunking, while increasing microbatch sizes beyond a certain point induces bursty execution and peak power excursions that worsen thermal throttling. These insights reveal how training performance is shaped by complex interactions between hardware, system topology, and model execution. We conclude by offering recommendations for system and hardware design to improve the scalability and reliability of future LLM systems and workloads. The source code of this project is available at https://github.com/sitar-lab/CharLLM-PPT.