Generative AI on the Edge: Architecture and Performance Evaluation
作者: Zeinab Nezami, Maryam Hafeez, Karim Djemame, Syed Ali Raza Zaidi
分类: cs.DC, cs.AI, cs.NI, cs.PF
发布日期: 2024-11-18
💡 一句话要点
在边缘设备上评估生成式AI:探索低成本硬件上的LLM推理性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 生成式AI 大型语言模型 Raspberry Pi Kubernetes 性能评估 6G网络
📋 核心要点
- 现有方法缺乏对低成本边缘设备上LLM性能的系统评估,阻碍了6G网络AI原生愿景的实现。
- 该研究利用Raspberry Pi集群作为边缘测试平台,结合轻量级K3s和模块化提示,评估不同规模LLM的推理性能。
- 实验表明,轻量级LLM在边缘设备上能够实现可观的吞吐量和较低的资源占用,为边缘AI应用提供了可能性。
📝 摘要(中文)
本文针对6G网络中将高级智能嵌入网络边缘的AI原生愿景,系统性地评估了边缘设备上生成式AI(GenAI)模型的性能。基于开放无线接入网(ORAN)和盒中网络(Network-in-a-Box)的快速发展方案提倡使用低成本、现成的组件,以简化和高效部署,例如在提供农村连接方面。本文研究了在单个商用Raspberry Pi上进行计算密集型LLM推理,作为ORAN的边缘测试平台。研究在Raspberry Pi 5集群上使用轻量级Kubernetes发行版(K3s)和模块化提示实现,研究了各种LLM,包括小型、中型和大型模型。通过分析吞吐量、延迟、准确性和效率,研究了其可行性和局限性。研究结果表明,仅CPU部署轻量级模型(如Yi、Phi和Llama3)可以有效地支持边缘应用,实现每秒5到12个token的生成吞吐量,且CPU和RAM使用率低于50%。结论是,边缘上的GenAI可以在6G网络中提供远程或带宽受限环境中的本地化推理,而无需依赖云基础设施。
🔬 方法详解
问题定义:论文旨在解决在资源受限的边缘设备上部署和评估大型语言模型(LLM)的性能问题。现有方法通常依赖于云计算进行LLM推理,这在带宽受限或需要低延迟的场景下存在局限性。此外,缺乏对低成本、现成边缘设备(如Raspberry Pi)上LLM性能的系统性评估。
核心思路:论文的核心思路是在低成本的边缘设备上部署轻量级的LLM,并采用优化的软件栈(如K3s)和模块化的提示工程,以实现可接受的推理性能。通过在边缘进行本地化推理,可以降低对云基础设施的依赖,并满足低延迟和隐私保护的需求。
技术框架:整体架构包括一个Raspberry Pi 5集群,作为边缘测试平台。集群上部署了轻量级的Kubernetes发行版K3s,用于容器化管理和资源调度。LLM推理通过模块化的提示实现,允许灵活地调整输入提示。性能评估指标包括吞吐量(tokens/秒)、延迟、准确性和资源利用率(CPU和RAM使用率)。
关键创新:该研究的关键创新在于探索了在商用Raspberry Pi上部署和运行LLM的可行性,并量化了不同规模LLM在边缘设备上的性能。通过结合轻量级Kubernetes和模块化提示,优化了边缘推理的效率。此外,该研究还关注了LLM在边缘设备上的资源占用情况,为实际部署提供了参考。
关键设计:论文选择了Raspberry Pi 5作为边缘设备,因为它具有较低的成本和相对较高的计算能力。K3s被选为Kubernetes发行版,因为它具有轻量级的特性,适合在资源受限的边缘设备上运行。模块化提示允许研究人员灵活地调整输入提示,以优化LLM的性能。论文评估了不同规模的LLM,包括Yi、Phi和Llama3,以确定适合在边缘设备上部署的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Raspberry Pi 5集群上,轻量级LLM(如Yi、Phi和Llama3)能够实现每秒5到12个token的生成吞吐量,且CPU和RAM使用率低于50%。这表明,在资源受限的边缘设备上,通过合理的模型选择和优化,可以实现可接受的LLM推理性能,为边缘AI应用提供了可能性。
🎯 应用场景
该研究成果可应用于多种场景,如智慧城市、工业物联网、远程医疗和农村通信等。在这些场景中,边缘设备可以利用本地部署的LLM进行实时数据分析、智能决策和个性化服务,而无需依赖云端连接。这有助于降低延迟、提高可靠性、保护用户隐私,并为带宽受限地区提供智能服务。
📄 摘要(原文)
6G's AI native vision of embedding advance intelligence in the network while bringing it closer to the user requires a systematic evaluation of Generative AI (GenAI) models on edge devices. Rapidly emerging solutions based on Open RAN (ORAN) and Network-in-a-Box strongly advocate the use of low-cost, off-the-shelf components for simpler and efficient deployment, e.g., in provisioning rural connectivity. In this context, conceptual architecture, hardware testbeds and precise performance quantification of Large Language Models (LLMs) on off-the-shelf edge devices remains largely unexplored. This research investigates computationally demanding LLM inference on a single commodity Raspberry Pi serving as an edge testbed for ORAN. We investigate various LLMs, including small, medium and large models, on a Raspberry Pi 5 Cluster using a lightweight Kubernetes distribution (K3s) with modular prompting implementation. We study its feasibility and limitations by analyzing throughput, latency, accuracy and efficiency. Our findings indicate that CPU-only deployment of lightweight models, such as Yi, Phi, and Llama3, can effectively support edge applications, achieving a generation throughput of 5 to 12 tokens per second with less than 50\% CPU and RAM usage. We conclude that GenAI on the edge offers localized inference in remote or bandwidth-constrained environments in 6G networks without reliance on cloud infrastructure.