Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective

📄 arXiv: 2410.04466v4 📥 PDF

作者: Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Yu Wang, Guohao Dai

分类: cs.AR, cs.LG

发布日期: 2024-10-06 (更新: 2025-06-13)

备注: Collect and update results in recent half year. 54 pages. Github link: https://github.com/Kimho666/LLM_Hardware_Survey


💡 一句话要点

全面分析硬件平台对大语言模型推理加速的影响与优化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理加速 硬件平台 CPU GPU FPGA ASIC 存内计算

📋 核心要点

  1. 现有大语言模型推理受限于硬件性能,难以在不同平台高效部署。
  2. 论文核心在于分析不同硬件平台特性,并总结相应的优化方法,以加速LLM推理。
  3. 论文对比了CPU、GPU、FPGA、ASIC等平台上的推理性能,并分析了不同优化方法的效果。

📝 摘要(中文)

大语言模型(LLMs)在自然语言理解和文本生成等领域展现了卓越的能力。与非生成式LLM(如BERT和DeBERTa)相比,生成式LLM(如GPT系列和Llama系列)因其卓越的算法性能而成为当前的研究重点。生成式LLM的进步与硬件能力的发展密切相关。不同的硬件平台表现出不同的硬件特性,这有助于提高LLM的推理性能。因此,本文全面调研了在不同硬件平台上高效的生成式LLM推理。首先,概述了主流生成式LLM的算法架构,并深入研究了推理过程。然后,总结了CPU、GPU、FPGA、ASIC和PIM/NDP等不同平台的优化方法,并提供了生成式LLM的推理结果。此外,通过考虑硬件功耗、绝对推理速度(tokens/s)和能效(tokens/J),对不同硬件平台上batch size为1和8时的推理性能进行了定性和定量比较。最后,指出了多模态、推理时计算和更高的推理能效是重新定义边缘人工智能系统能力的三大趋势。

🔬 方法详解

问题定义:现有的大语言模型(LLM)推理面临着计算量大、内存需求高的问题,导致推理速度慢、能耗高。不同的硬件平台具有不同的架构和特性,针对特定平台优化LLM推理至关重要。现有方法通常只关注单一硬件平台或特定的优化技术,缺乏对不同平台和优化方法的全面比较和分析。

核心思路:本文的核心思路是系统性地分析不同硬件平台(CPU、GPU、FPGA、ASIC、PIM/NDP)的特性,并总结适用于这些平台的LLM推理优化方法。通过对不同平台和优化方法的性能进行定量和定性比较,为LLM推理加速提供全面的硬件视角。

技术框架:本文首先概述了主流生成式LLM的算法架构和推理过程。然后,针对不同的硬件平台,总结了相应的优化方法,包括:CPU上的量化、剪枝、知识蒸馏等;GPU上的kernel优化、张量并行、流水线并行等;FPGA上的定制化数据通路、高并行计算等;ASIC上的专用指令集、片上存储优化等;PIM/NDP上的存内计算、近数据处理等。最后,通过实验对比不同平台和优化方法的推理性能。

关键创新:本文的创新之处在于:1) 提供了对不同硬件平台LLM推理加速的全面综述,涵盖了CPU、GPU、FPGA、ASIC和PIM/NDP等多种平台;2) 对不同平台上的优化方法进行了系统性的总结和比较,包括软件优化和硬件优化;3) 通过实验对不同平台和优化方法的性能进行了定量和定性分析,为LLM推理加速提供了有价值的参考。

关键设计:论文的关键设计在于对不同硬件平台的推理性能进行了细致的评估,包括推理速度(tokens/s)、能效(tokens/J)和功耗等指标。同时,论文还考虑了不同batch size(1和8)对推理性能的影响。此外,论文还对不同优化方法在不同平台上的效果进行了对比,例如,比较了量化方法在CPU和GPU上的性能差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验对比了不同硬件平台上的LLM推理性能,结果表明,ASIC和PIM/NDP等专用硬件平台在推理速度和能效方面具有显著优势。例如,在batch size为1的情况下,ASIC平台的推理速度可以达到GPU平台的数倍,而能效则可以提升数十倍。此外,论文还发现,针对特定硬件平台进行优化可以进一步提高推理性能,例如,通过kernel优化和张量并行等技术,可以显著提升GPU上的LLM推理速度。

🎯 应用场景

该研究成果可应用于各种需要加速大语言模型推理的场景,例如:边缘设备上的智能助手、移动设备上的实时翻译、云服务器上的大规模文本生成等。通过选择合适的硬件平台和优化方法,可以显著提高LLM推理速度和能效,从而降低部署成本,提升用户体验,并推动边缘人工智能的发展。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities across various fields, from natural language understanding to text generation. Compared to non-generative LLMs like BERT and DeBERTa, generative LLMs like GPT series and Llama series are currently the main focus due to their superior algorithmic performance. The advancements in generative LLMs are closely intertwined with the development of hardware capabilities. Various hardware platforms exhibit distinct hardware characteristics, which can help improve LLM inference performance. Therefore, this paper comprehensively surveys efficient generative LLM inference on different hardware platforms. First, we provide an overview of the algorithm architecture of mainstream generative LLMs and delve into the inference process. Then, we summarize different optimization methods for different platforms such as CPU, GPU, FPGA, ASIC, and PIM/NDP, and provide inference results for generative LLMs. Furthermore, we perform a qualitative and quantitative comparison of inference performance with batch sizes 1 and 8 on different hardware platforms by considering hardware power consumption, absolute inference speed (tokens/s), and energy efficiency (tokens/J). We compare the performance of the same optimization methods across different hardware platforms, the performance across different hardware platforms, and the performance of different methods on the same hardware platform. This provides a systematic and comprehensive summary of existing inference acceleration work by integrating software optimization methods and hardware platforms. We point out that three trends (multimodality, inference-time compute, and higher inference energy efficiency) are promising to redefine the capabilities of edge artificial intelligence systems. Our project is available at https://dai.sjtu.edu.cn/project.html.