Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC

作者: Qingyu Song, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan

分类: cs.LG

发布日期: 2025-05-21 (更新: 2025-06-07)

备注: 18 pages, 14 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出系统化方法评估边缘设备上的大型语言模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 边缘计算 量化方法 性能评估 隐私保护

📋 核心要点

现有的边缘设备上大型语言模型面临性能限制，主要由于模型容量和压缩技术的不足。
本文提出了一种系统化的方法论，综合考虑模型能力、开发效率和系统资源，以评估和优化边缘设备上的LLMs。
实验结果显示，系统级指标与有效比特每权重近似线性关系，低BPW量化在准确度损失小的情况下实现显著内存节省。

📝 摘要（中文）

随着大型语言模型（LLMs）在边缘设备上的日益部署，隐私保护的优势愈加明显。然而，这些设备上的LLMs由于模型容量受限和压缩技术的必要性，面临性能限制。为此，本文提出了一种系统化的方法论，涵盖模型能力、开发效率和系统资源，以评估边缘设备上的LLMs。通过对0.5B至14B参数模型及七种后训练量化（PTQ）方法的综合评估，我们获得了若干关键见解，包括系统级指标与有效比特每权重（BPW）近似线性扩展、约3.5有效BPW的实用阈值，以及低BPW量化带来的边际准确度损失与显著内存节省。这些发现为资源受限的边缘设备上LLMs的高效部署和优化配置提供了重要指导。

🔬 方法详解

问题定义：本文旨在解决边缘设备上大型语言模型性能受限的问题，现有方法在模型容量和压缩技术上存在不足，导致无法充分发挥LLMs的潜力。

核心思路：提出一种系统化的评估方法，涵盖模型能力、开发效率和系统资源，旨在为边缘设备上的LLMs提供有效的配置和优化指导。

技术框架：整体架构包括模型评估、量化方法选择和系统资源分析三个主要模块。首先评估不同参数规模模型的性能，然后选择合适的后训练量化方法，最后分析系统资源的使用情况。

关键创新：最重要的创新点在于发现了有效比特每权重（BPW）与系统级指标之间的近线性关系，并提出了约3.5有效BPW的实用阈值，这与现有方法的经验法则有显著区别。

关键设计：在实验中，采用了七种后训练量化方法，重点关注低BPW量化对模型性能的影响，确保在内存节省的同时，尽量减少准确度损失。

📊 实验亮点

实验结果表明，系统级指标与有效比特每权重（BPW）之间存在近线性关系，且在约3.5有效BPW的阈值下，大模型在低比特量化下的表现优于小模型。低BPW量化方法实现了边际准确度损失的同时，显著节省了内存，提供了有效的资源利用方案。

🎯 应用场景

该研究的潜在应用领域包括智能手机、物联网设备和其他资源受限的边缘计算环境。通过优化大型语言模型的配置，可以在保证隐私的前提下，提升用户体验和应用性能，具有重要的实际价值和未来影响。

📄 摘要（原文）

The increasing deployment of Large Language Models (LLMs) on edge devices, driven by model advancements and hardware improvements, offers significant privacy benefits. However, these on-device LLMs inherently face performance limitations due to reduced model capacity and necessary compression techniques. To address this, we introduce a systematic methodology -- encompassing model capability, development efficiency, and system resources -- for evaluating on-device LLMs. Our comprehensive evaluation, encompassing models from 0.5B to 14B parameters and seven post-training quantization (PTQ) methods on commodity laptops, yields several critical insights: 1) System-level metrics exhibit near-linear scaling with effective bits-per-weight (BPW). 2) A practical threshold exists around $\sim$3.5 effective BPW, larger models subjected to low-bit quantization consistently outperform smaller models utilizing higher bit-precision. 3) Quantization with low BPW incurs marginal accuracy loss but significant memory savings. 4) Determined by low-level implementation specifics power consumption on CPU, where computation-intensive operations spend more power than memory-intensive ones. These findings offer crucial insights and practical guidelines for the efficient deployment and optimized configuration of LLMs on resource-constrained edge devices. Our codebase is available at https://github.com/simmonssong/LLMOnDevice.

Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册