Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML

📄 arXiv: 2409.12994v2 📥 PDF

作者: Chelsea Maria John, Stepan Nassyr, Carolin Penke, Andreas Herten

分类: cs.AR, cs.AI, cs.DC, cs.LG, cs.PF

发布日期: 2024-09-19 (更新: 2024-10-29)

备注: To be published in Workshop Proceedings of The International Conference for High Performance Computing Networking, Storage, and Analysis (SC-W '24) (2024)

DOI: 10.1109/SCW63240.2024.00158


💡 一句话要点

CARAML:用于系统评估AI加速器上ML工作负载性能与功耗的基准测试套件

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器学习 硬件加速器 基准测试 性能评估 功耗测量

📋 核心要点

  1. 现有机器学习模型训练对算力需求高,专用硬件加速器成为趋势,但缺乏统一的性能评估标准。
  2. CARAML基准测试套件旨在提供一个自动化、可扩展和可复现的框架,用于评估不同硬件加速器上的ML性能和能耗。
  3. CARAML支持Transformer大型语言模型和计算机视觉模型的训练,并提供定制的功耗测量工具jpwr。

📝 摘要(中文)

本文介绍CARAML基准测试套件,用于评估在NVIDIA、AMD和Graphcore等硬件加速器上训练基于Transformer的大型语言模型和计算机视觉模型时的性能和能耗。CARAML提供了一个紧凑、自动化、可扩展和可复现的框架,用于评估各种新型硬件架构上机器学习工作负载的性能和能耗。文中详细讨论了CARAML的设计和实现,以及一个名为jpwr的定制功耗测量工具。

🔬 方法详解

问题定义:论文旨在解决缺乏统一、标准化的方法来评估不同硬件加速器上机器学习工作负载的性能和功耗的问题。现有方法可能不够紧凑、自动化程度低、难以扩展或复现,阻碍了对新型硬件架构的有效评估。

核心思路:论文的核心思路是构建一个全面的基准测试套件CARAML,该套件能够自动化地执行机器学习模型的训练,并精确测量硬件加速器的性能和功耗。通过提供一个统一的评估框架,CARAML可以促进不同硬件架构之间的公平比较。

技术框架:CARAML的技术框架主要包括以下几个部分:1) 基准测试工作负载:选择具有代表性的Transformer大型语言模型和计算机视觉模型作为测试对象。2) 自动化执行环境:提供脚本和工具,实现模型训练的自动化执行。3) 功耗测量工具jpwr:定制的功耗测量工具,用于精确测量硬件加速器的功耗。4) 结果分析和报告:收集性能和功耗数据,并生成详细的报告。

关键创新:CARAML的关键创新在于其提供了一个紧凑、自动化、可扩展和可复现的基准测试框架,专门用于评估机器学习工作负载在各种硬件加速器上的性能和功耗。此外,定制的功耗测量工具jpwr也是一个重要的创新点,它能够提供更精确的功耗数据。

关键设计:CARAML的关键设计包括:1) 工作负载的选择:选择具有代表性的Transformer和CV模型,确保覆盖不同的计算模式。2) 自动化脚本:使用Python等脚本语言编写自动化执行脚本,简化测试流程。3) 功耗测量:jpwr工具的设计,需要考虑采样频率、精度和对系统性能的影响。4) 可扩展性:CARAML的设计允许方便地添加新的模型、硬件平台和测量指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

由于摘要中没有提供具体的实验结果,因此无法总结实验亮点。需要查阅论文全文才能提取具体的性能数据、对比基线和提升幅度等信息。但可以推测,实验结果会展示CARAML在不同硬件加速器上运行不同ML模型时的性能和功耗数据,并可能与其他基准测试方法进行对比,以突出CARAML的优势。

🎯 应用场景

CARAML的应用场景广泛,包括硬件加速器设计、机器学习模型优化、云服务提供商的资源调度和能耗管理等。通过使用CARAML,硬件厂商可以评估其加速器的性能,研究人员可以优化模型以适应不同的硬件平台,云服务提供商可以根据性能和能耗数据进行更有效的资源分配。CARAML有助于推动更高效、更节能的机器学习应用。

📄 摘要(原文)

The rapid advancement of machine learning (ML) technologies has driven the development of specialized hardware accelerators designed to facilitate more efficient model training. This paper introduces the CARAML benchmark suite, which is employed to assess performance and energy consumption during the training of transformer-based large language models and computer vision models on a range of hardware accelerators, including systems from NVIDIA, AMD, and Graphcore. CARAML provides a compact, automated, extensible, and reproducible framework for assessing the performance and energy of ML workloads across various novel hardware architectures. The design and implementation of CARAML, along with a custom power measurement tool called jpwr, are discussed in detail.