Generative AI on the Edge: Architecture and Performance Evaluation

作者: Zeinab Nezami, Maryam Hafeez, Karim Djemame, Syed Ali Raza Zaidi

分类: cs.DC, cs.AI, cs.NI, cs.PF

发布日期: 2024-11-18

💡 一句话要点

在边缘设备上评估生成式AI：探索低成本硬件上的LLM推理性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 生成式AI 大型语言模型 Raspberry Pi Kubernetes 性能评估 6G网络

📋 核心要点

现有方法缺乏对低成本边缘设备上LLM性能的系统评估，阻碍了6G网络AI原生愿景的实现。
该研究利用Raspberry Pi集群作为边缘测试平台，结合轻量级K3s和模块化提示，评估不同规模LLM的推理性能。
实验表明，轻量级LLM在边缘设备上能够实现可观的吞吐量和较低的资源占用，为边缘AI应用提供了可能性。

📝 摘要（中文）

本文针对6G网络中将高级智能嵌入网络边缘的AI原生愿景，系统性地评估了边缘设备上生成式AI（GenAI）模型的性能。基于开放无线接入网（ORAN）和盒中网络（Network-in-a-Box）的快速发展方案提倡使用低成本、现成的组件，以简化和高效部署，例如在提供农村连接方面。本文研究了在单个商用Raspberry Pi上进行计算密集型LLM推理，作为ORAN的边缘测试平台。研究在Raspberry Pi 5集群上使用轻量级Kubernetes发行版（K3s）和模块化提示实现，研究了各种LLM，包括小型、中型和大型模型。通过分析吞吐量、延迟、准确性和效率，研究了其可行性和局限性。研究结果表明，仅CPU部署轻量级模型（如Yi、Phi和Llama3）可以有效地支持边缘应用，实现每秒5到12个token的生成吞吐量，且CPU和RAM使用率低于50%。结论是，边缘上的GenAI可以在6G网络中提供远程或带宽受限环境中的本地化推理，而无需依赖云基础设施。

🔬 方法详解

问题定义：论文旨在解决在资源受限的边缘设备上部署和评估大型语言模型（LLM）的性能问题。现有方法通常依赖于云计算进行LLM推理，这在带宽受限或需要低延迟的场景下存在局限性。此外，缺乏对低成本、现成边缘设备（如Raspberry Pi）上LLM性能的系统性评估。

核心思路：论文的核心思路是在低成本的边缘设备上部署轻量级的LLM，并采用优化的软件栈（如K3s）和模块化的提示工程，以实现可接受的推理性能。通过在边缘进行本地化推理，可以降低对云基础设施的依赖，并满足低延迟和隐私保护的需求。

技术框架：整体架构包括一个Raspberry Pi 5集群，作为边缘测试平台。集群上部署了轻量级的Kubernetes发行版K3s，用于容器化管理和资源调度。LLM推理通过模块化的提示实现，允许灵活地调整输入提示。性能评估指标包括吞吐量（tokens/秒）、延迟、准确性和资源利用率（CPU和RAM使用率）。

关键创新：该研究的关键创新在于探索了在商用Raspberry Pi上部署和运行LLM的可行性，并量化了不同规模LLM在边缘设备上的性能。通过结合轻量级Kubernetes和模块化提示，优化了边缘推理的效率。此外，该研究还关注了LLM在边缘设备上的资源占用情况，为实际部署提供了参考。

关键设计：论文选择了Raspberry Pi 5作为边缘设备，因为它具有较低的成本和相对较高的计算能力。K3s被选为Kubernetes发行版，因为它具有轻量级的特性，适合在资源受限的边缘设备上运行。模块化提示允许研究人员灵活地调整输入提示，以优化LLM的性能。论文评估了不同规模的LLM，包括Yi、Phi和Llama3，以确定适合在边缘设备上部署的模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Raspberry Pi 5集群上，轻量级LLM（如Yi、Phi和Llama3）能够实现每秒5到12个token的生成吞吐量，且CPU和RAM使用率低于50%。这表明，在资源受限的边缘设备上，通过合理的模型选择和优化，可以实现可接受的LLM推理性能，为边缘AI应用提供了可能性。

🎯 应用场景

该研究成果可应用于多种场景，如智慧城市、工业物联网、远程医疗和农村通信等。在这些场景中，边缘设备可以利用本地部署的LLM进行实时数据分析、智能决策和个性化服务，而无需依赖云端连接。这有助于降低延迟、提高可靠性、保护用户隐私，并为带宽受限地区提供智能服务。

📄 摘要（原文）

6G's AI native vision of embedding advance intelligence in the network while bringing it closer to the user requires a systematic evaluation of Generative AI (GenAI) models on edge devices. Rapidly emerging solutions based on Open RAN (ORAN) and Network-in-a-Box strongly advocate the use of low-cost, off-the-shelf components for simpler and efficient deployment, e.g., in provisioning rural connectivity. In this context, conceptual architecture, hardware testbeds and precise performance quantification of Large Language Models (LLMs) on off-the-shelf edge devices remains largely unexplored. This research investigates computationally demanding LLM inference on a single commodity Raspberry Pi serving as an edge testbed for ORAN. We investigate various LLMs, including small, medium and large models, on a Raspberry Pi 5 Cluster using a lightweight Kubernetes distribution (K3s) with modular prompting implementation. We study its feasibility and limitations by analyzing throughput, latency, accuracy and efficiency. Our findings indicate that CPU-only deployment of lightweight models, such as Yi, Phi, and Llama3, can effectively support edge applications, achieving a generation throughput of 5 to 12 tokens per second with less than 50\% CPU and RAM usage. We conclude that GenAI on the edge offers localized inference in remote or bandwidth-constrained environments in 6G networks without reliance on cloud infrastructure.

Generative AI on the Edge: Architecture and Performance Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理