Large Language Models on Small Resource-Constrained Systems: Performance Characterization, Analysis and Trade-offs

📄 arXiv: 2412.15352v1 📥 PDF

作者: Liam Seymour, Basar Kutukcu, Sabur Baidya

分类: cs.LG, cs.CC

发布日期: 2024-12-19


💡 一句话要点

针对资源受限系统,论文评估并优化大语言模型在Jetson Orin上的性能表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 边缘计算 Jetson Orin 性能评估 资源受限系统

📋 核心要点

  1. 现有LLM服务依赖云端,存在网络依赖、隐私风险和边缘计算需求,需要在资源受限设备上运行LLM。
  2. 论文旨在评估最新NVIDIA Jetson Orin设备上不同规模Pythia LLM的性能,并探索软硬件参数的优化空间。
  3. 通过实验,论文展示了不同配置下的性能权衡,并提供批量测试工具,为后续研究提供基准和便利。

📝 摘要(中文)

近年来,生成式人工智能,如大语言模型(LLM),已变得越来越普及。诸如ChatGPT等公共服务在联网的云服务器硬件上执行token生成,从而有效消除了终端用户的硬件入门成本。然而,对这些服务的网络访问依赖、涉及的隐私和安全风险,以及有时应用的需求,使得在边缘设备上本地运行LLM成为必要。大量研究致力于在非联网、资源受限的设备上优化LLM和其他基于Transformer的模型,但它们通常针对较旧的硬件。本研究旨在为最新的商用嵌入式硬件上的LLM提供一个“基线”表征,并提供一个简单的实用程序,以方便在最新的Jetson硬件上进行批量LLM测试。我们专注于最新的NVIDIA Jetson设备(Jetson Orin)和一组公开可用的LLM(Pythia),参数范围在7000万到14亿之间。通过对不同软件和硬件参数的详细实验评估,我们展示了权衡空间和优化选择。此外,我们设计的测试结构旨在促进进一步的研究,包括在Jetson硬件上执行批量LLM测试。

🔬 方法详解

问题定义:论文旨在解决在资源受限的嵌入式设备(特别是NVIDIA Jetson Orin系列)上高效运行大语言模型(LLM)的问题。现有方法通常针对较旧的硬件,缺乏对最新嵌入式硬件的系统性评估和优化指导。此外,缺乏易于使用的批量测试工具,阻碍了相关研究的进展。

核心思路:论文的核心思路是通过实验评估不同规模的LLM(Pythia系列)在Jetson Orin上的性能表现,并分析不同软件和硬件参数对性能的影响。通过系统性的测试和分析,揭示性能瓶颈和优化空间,为在资源受限设备上部署LLM提供指导。同时,开发一个批量测试工具,方便后续研究人员进行快速评估和优化。

技术框架:论文的技术框架主要包括以下几个部分:1) 选择NVIDIA Jetson Orin作为目标硬件平台,因为它代表了最新的商用嵌入式硬件。2) 选择Pythia系列LLM作为测试对象,因为它是一组公开可用的、不同规模的LLM。3) 设计实验方案,系统性地测试不同软件(如不同的推理框架)和硬件参数(如CPU/GPU频率)对LLM性能的影响。4) 开发一个批量测试工具,方便进行大规模的性能测试和分析。

关键创新:论文的关键创新在于:1) 针对最新的嵌入式硬件(Jetson Orin)进行了LLM性能的基线评估,填补了现有研究的空白。2) 系统性地分析了不同软件和硬件参数对LLM性能的影响,为优化提供了指导。3) 开发了一个易于使用的批量测试工具,方便后续研究人员进行快速评估和优化。

关键设计:论文的关键设计包括:1) 选择Pythia系列LLM,涵盖了不同规模的模型,可以评估模型规模对性能的影响。2) 设计了详细的实验方案,包括不同的推理框架(如TensorRT, ONNX Runtime)、不同的CPU/GPU频率、不同的批量大小等,可以全面评估不同参数对性能的影响。3) 批量测试工具的设计,允许用户自定义测试参数、自动运行测试、收集性能数据,并生成报告。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验评估了不同规模的Pythia LLM在Jetson Orin上的性能表现,揭示了模型规模、推理框架、CPU/GPU频率等因素对性能的影响。例如,实验结果表明,使用TensorRT推理框架可以显著提高LLM的推理速度。此外,论文还展示了不同参数配置下的性能权衡,为优化提供了指导。该研究为在资源受限设备上部署LLM提供了重要的基准数据。

🎯 应用场景

该研究成果可应用于边缘计算、机器人、无人机等资源受限场景,使这些设备能够在本地运行LLM,实现智能交互、自主决策等功能。例如,在智能家居中,本地LLM可以实现更快的响应速度和更高的隐私保护;在机器人领域,本地LLM可以提高机器人的自主导航和任务执行能力。该研究为在资源受限设备上部署LLM提供了重要的参考和指导。

📄 摘要(原文)

Generative AI like the Large Language Models (LLMs) has become more available for the general consumer in recent years. Publicly available services, e.g., ChatGPT, perform token generation on networked cloud server hardware, effectively removing the hardware entry cost for end users. However, the reliance on network access for these services, privacy and security risks involved, and sometimes the needs of the application make it necessary to run LLMs locally on edge devices. A significant amount of research has been done on optimization of LLMs and other transformer-based models on non-networked, resource-constrained devices, but they typically target older hardware. Our research intends to provide a 'baseline' characterization of more recent commercially available embedded hardware for LLMs, and to provide a simple utility to facilitate batch testing LLMs on recent Jetson hardware. We focus on the latest line of NVIDIA Jetson devices (Jetson Orin), and a set of publicly available LLMs (Pythia) ranging between 70 million and 1.4 billion parameters. Through detailed experimental evaluation with varying software and hardware parameters, we showcase trade-off spaces and optimization choices. Additionally, we design our testing structure to facilitate further research that involves performing batch LLM testing on Jetson hardware.