DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

📄 arXiv: 2601.19904v1 📥 PDF

作者: Ziyu Hu, Zhiqing Zhong, Weijian Zheng, Zhijing Ye, Xuwei Tan, Xueru Zhang, Zheng Xie, Rajkumar Kettimuthu, Xiaodong Yu

分类: cs.AR, cs.AI, cs.CL, cs.DC, cs.PF

发布日期: 2025-12-04


💡 一句话要点

提出DABench-LLM以解决数据流AI加速器性能评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据流加速器 大型语言模型 性能评估 基准测试 资源优化 系统分析

📋 核心要点

  1. 现有的CPU和GPU架构在处理大型语言模型时面临性能瓶颈,缺乏有效的评估工具。
  2. DABench-LLM框架结合了性能分析与可扩展性分析,提供了针对数据流加速器的标准化评估方法。
  3. 在Cerebras WSE-2、SambaNova RDU和Graphcore IPU等加速器上验证,揭示了性能瓶颈并提出优化策略。

📝 摘要(中文)

随着大型语言模型的快速发展,传统的CPU和GPU架构已无法满足其需求,数据流AI加速器成为一种有前景的替代方案。然而,目前缺乏针对LLM训练的深入性能分析和标准化基准测试方法。本文提出了DABench-LLM,这是第一个专为评估数据流加速器上的LLM工作负载而设计的基准测试框架。通过结合芯片内部性能分析和芯片间可扩展性分析,DABench-LLM能够在资源分配、负载平衡和资源效率等关键指标上进行全面评估。该框架帮助研究人员快速洞察底层硬件和系统行为,并为性能优化提供指导。我们在三种商品数据流加速器上验证了DABench-LLM,揭示了性能瓶颈并提供了具体的优化策略,展示了其在多种数据流AI硬件平台上的通用性和有效性。

🔬 方法详解

问题定义:本文旨在解决数据流AI加速器在大型语言模型训练中的性能评估不足问题。现有方法缺乏系统的基准测试框架,导致无法深入分析加速器的性能表现。

核心思路:DABench-LLM的核心思路是通过综合芯片内部性能分析与芯片间可扩展性分析,构建一个全面的评估框架,以便更好地理解和优化数据流加速器的性能。

技术框架:DABench-LLM框架包含多个模块,包括性能分析模块、可扩展性分析模块和优化建议模块。性能分析模块负责收集和分析加速器的运行数据,可扩展性分析模块则评估不同硬件配置下的性能表现。

关键创新:DABench-LLM的主要创新在于其综合性评估方法,首次将内部和外部性能分析结合,提供了更全面的性能洞察,与传统单一评估方法相比具有显著优势。

关键设计:框架中设置了多种关键参数,如资源分配策略和负载平衡算法,采用了适应性优化策略以提高资源利用率,并设计了针对不同加速器特性的评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在对Cerebras WSE-2、SambaNova RDU和Graphcore IPU的实验中,DABench-LLM成功揭示了多个性能瓶颈,并提出了针对性的优化策略,显著提高了加速器的资源利用率和训练效率,展示了框架的有效性和通用性。

🎯 应用场景

DABench-LLM框架可广泛应用于数据流AI加速器的性能评估,帮助研究人员和工程师优化大型语言模型的训练过程。其标准化的评估方法将推动新一代AI硬件的设计与开发,提升整体计算效率,具有重要的实际价值和未来影响。

📄 摘要(原文)

The exponential growth of large language models has outpaced the capabilities of traditional CPU and GPU architectures due to the slowdown of Moore's Law. Dataflow AI accelerators present a promising alternative; however, there remains a lack of in-depth performance analysis and standardized benchmarking methodologies for LLM training. We introduce DABench-LLM, the first benchmarking framework designed for evaluating LLM workloads on dataflow-based accelerators. By combining intra-chip performance profiling and inter-chip scalability analysis, DABench-LLM enables comprehensive evaluation across key metrics such as resource allocation, load balance, and resource efficiency. The framework helps researchers rapidly gain insights into underlying hardware and system behaviors, and provides guidance for performance optimizations. We validate DABench-LLM on three commodity dataflow accelerators, Cerebras WSE-2, SambaNova RDU, and Graphcore IPU. Our framework reveals performance bottlenecks and provides specific optimization strategies, demonstrating its generality and effectiveness across a diverse range of dataflow-based AI hardware platforms.