Inter-Layer Scheduling Space Exploration for Multi-model Inference on Heterogeneous Chiplets
作者: Mohanad Odema, Hyoukjun Kwon, Mohammad Abdullah Al Faruque
分类: cs.AR, cs.AI, cs.DC
发布日期: 2023-12-14
备注: Accepted poster abstract to the IBM IEEE AI Compute Symposium (AICS'23)
💡 一句话要点
针对异构Chiplet多模型推理,提出层间调度空间探索框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异构计算 Chiplet 多模型推理 调度框架 流水线并行
📋 核心要点
- 现有加速器难以满足多模型工作负载对算力的需求,尤其是在大型语言模型等重型模型场景下。
- 论文提出一种针对异构MCM加速器的调度框架,充分利用chiplet间的异构性和流水线并行性。
- 实验结果表明,该框架在吞吐量和能效方面均优于单片加速器,验证了其有效性。
📝 摘要(中文)
为了应对大型语言模型等重型模型带来的日益增长的计算需求,本文提出部署基于异构chiplet的多芯片模块(MCM)加速器。我们为异构MCM加速器开发了一种先进的调度框架,该框架全面考虑了复杂的异构性和chiplet间的流水线。在包含GPT-2和ResNet-50模型的四chiplet系统上使用该框架进行的实验表明,与具有优化输出驻留数据流的单片加速器相比,吞吐量和能源效率分别提高了高达2.2倍和1.9倍。
🔬 方法详解
问题定义:现有加速器在处理多模型工作负载时,尤其是在包含大型语言模型等计算密集型模型时,面临着算力瓶颈。传统的单片加速器难以有效利用异构计算资源,并且缺乏对chiplet间通信和流水线并行性的优化,导致性能受限。
核心思路:论文的核心思路是利用异构chiplet构建多芯片模块(MCM)加速器,并设计一个先进的调度框架,充分挖掘chiplet间的异构性和流水线并行性。通过合理的任务分配和数据调度,最大化加速器的吞吐量和能源效率。
技术框架:该调度框架主要包含以下几个阶段:1) 模型分析:分析多模型工作负载中各个模型的计算图和数据依赖关系。2) 资源建模:对异构chiplet的计算能力、存储容量和通信带宽进行建模。3) 调度空间探索:基于模型分析和资源建模,探索不同的层间调度方案,例如任务分配、数据映射和通信调度。4) 性能评估:评估不同调度方案的性能指标,例如吞吐量、延迟和能源效率。5) 调度方案选择:选择最优的调度方案,并将其部署到MCM加速器上。
关键创新:该论文的关键创新在于提出了一个综合考虑异构性和chiplet间流水线并行性的调度框架。该框架能够有效地将多模型工作负载映射到异构MCM加速器上,并充分利用chiplet间的计算和通信资源。与传统的单片加速器相比,该框架能够显著提高吞吐量和能源效率。
关键设计:论文中涉及的关键设计包括:1) 异构chiplet的资源建模方法,需要准确描述不同chiplet的计算能力和存储容量。2) 调度空间探索算法,需要在大量的调度方案中找到最优解。3) 性能评估模型,需要准确预测不同调度方案的性能指标。4) 数据映射和通信调度策略,需要最小化chiplet间的数据传输延迟。
📊 实验亮点
实验结果表明,在包含GPT-2和ResNet-50模型的四chiplet系统上,该调度框架与具有优化输出驻留数据流的单片加速器相比,吞吐量提高了高达2.2倍,能源效率提高了高达1.9倍。这些结果充分验证了该框架在提高多模型推理性能和能效方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要高性能和高能效的多模型推理场景,例如自动驾驶、智能监控、自然语言处理等。通过利用异构chiplet和先进的调度框架,可以显著提高这些应用的性能和能效,从而实现更复杂的算法和更强大的功能。未来,该技术有望推动人工智能在边缘计算设备上的广泛应用。
📄 摘要(原文)
To address increasing compute demand from recent multi-model workloads with heavy models like large language models, we propose to deploy heterogeneous chiplet-based multi-chip module (MCM)-based accelerators. We develop an advanced scheduling framework for heterogeneous MCM accelerators that comprehensively consider complex heterogeneity and inter-chiplet pipelining. Our experiments using our framework on GPT-2 and ResNet-50 models on a 4-chiplet system have shown upto 2.2x and 1.9x increase in throughput and energy efficiency, compared to a monolithic accelerator with an optimized output-stationary dataflow.