On the Sustainability of AI Inferences in the Edge

📄 arXiv: 2507.23093v1 📥 PDF

作者: Ghazal Sobhani, Md. Monzurul Amin Ifath, Tushar Sharma, Israat Haque

分类: cs.LG, cs.AI, cs.PF

发布日期: 2025-07-30

备注: 14 pages, 8 figures, 6 tables, in preparation for journal submission


💡 一句话要点

边缘AI推理可持续性研究:针对不同边缘设备和模型的性能与能耗权衡分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 AI推理 性能评估 能耗分析 模型优化 物联网 嵌入式系统

📋 核心要点

  1. 边缘设备上的AI推理面临性能和能耗的双重挑战,现有研究缺乏对不同设备和模型的系统性评估。
  2. 该研究通过在多种边缘设备上评估不同类型的AI模型,分析性能、能耗和内存使用之间的权衡。
  3. 实验结果表明,硬件和框架优化以及模型参数调整可以有效平衡模型性能和资源消耗,实现可持续的边缘AI。

📝 摘要(中文)

随着物联网(IoT)的普及和人工智能应用的发展(如自动驾驶和智能工业),数据驱动系统及其在边缘的部署日益重要。边缘设备通常执行推理以支持对延迟敏感的应用。除了这些资源受限的边缘设备的性能外,它们的能耗也是采用和部署边缘应用的关键因素。本文针对Raspberry Pi (RPi)、Intel Neural Compute Stick (INCS)、NVIDIA Jetson nano (NJn)和Google Coral USB (GCU)等边缘设备,研究了传统模型、神经网络和大型语言模型在其上的性能和能耗。旨在填补设备和模型选型方面,缺乏性能和能耗研究的空白,从而为满足应用需求提供依据。通过分析模型F1分数、推理时间、推理功耗和内存使用之间的权衡,结合硬件和框架优化以及AI模型的外部参数调整,可以在模型性能和资源使用之间取得平衡,从而实现实用的边缘AI部署。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上部署AI模型时,如何选择合适的设备和模型,以在性能、能耗和内存使用之间取得最佳平衡的问题。现有方法缺乏对不同边缘设备和模型组合的系统性评估,难以指导实际部署中的决策。

核心思路:论文的核心思路是通过对多种边缘设备(如Raspberry Pi、Intel Neural Compute Stick等)和不同类型的AI模型(包括传统模型、神经网络和大型语言模型)进行基准测试,分析它们在推理时间、功耗、内存占用和模型精度(F1分数)等方面的表现,从而揭示不同选择之间的权衡关系。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择代表性的边缘设备和AI模型;2) 在这些设备上运行模型进行推理;3) 测量推理时间、功耗和内存占用等指标;4) 分析这些指标与模型精度之间的关系,并探讨硬件和框架优化以及模型参数调整对性能的影响。

关键创新:该研究的关键创新在于对多种边缘设备和AI模型进行了全面的性能和能耗评估,并系统地分析了它们之间的权衡关系。此外,该研究还探讨了硬件和框架优化以及模型参数调整对性能的影响,为实际部署提供了有价值的指导。

关键设计:论文的关键设计包括:1) 选择具有代表性的边缘设备,覆盖不同的计算能力和功耗水平;2) 选择不同类型的AI模型,包括传统模型、神经网络和大型语言模型,以评估不同模型的适用性;3) 使用标准化的基准测试数据集,以确保结果的可比性;4) 采用精确的功耗测量设备,以获取准确的能耗数据;5) 分析模型F1分数、推理时间、推理功耗和内存使用之间的权衡关系。

🖼️ 关键图片

img_0

📊 实验亮点

该研究在多种边缘设备上对不同类型的AI模型进行了基准测试,揭示了性能、能耗和内存使用之间的权衡关系。例如,实验结果表明,在某些情况下,通过牺牲少量模型精度,可以显著降低能耗和推理时间。此外,硬件和框架优化以及模型参数调整可以进一步提升性能,例如,通过优化TensorFlow Lite框架,可以在Raspberry Pi上实现更快的推理速度。

🎯 应用场景

该研究成果可广泛应用于各种边缘计算场景,如自动驾驶、智能监控、智能家居和工业自动化等。通过选择合适的边缘设备和AI模型,可以在满足应用性能需求的同时,降低能耗和成本,实现可持续的边缘AI部署。该研究还有助于推动边缘计算技术的普及和应用,促进物联网和人工智能的融合发展。

📄 摘要(原文)

The proliferation of the Internet of Things (IoT) and its cutting-edge AI-enabled applications (e.g., autonomous vehicles and smart industries) combine two paradigms: data-driven systems and their deployment on the edge. Usually, edge devices perform inferences to support latency-critical applications. In addition to the performance of these resource-constrained edge devices, their energy usage is a critical factor in adopting and deploying edge applications. Examples of such devices include Raspberry Pi (RPi), Intel Neural Compute Stick (INCS), NVIDIA Jetson nano (NJn), and Google Coral USB (GCU). Despite their adoption in edge deployment for AI inferences, there is no study on their performance and energy usage for informed decision-making on the device and model selection to meet the demands of applications. This study fills the gap by rigorously characterizing the performance of traditional, neural networks, and large language models on the above-edge devices. Specifically, we analyze trade-offs among model F1 score, inference time, inference power, and memory usage. Hardware and framework optimization, along with external parameter tuning of AI models, can balance between model performance and resource usage to realize practical edge AI deployments.