PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms
作者: Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee
分类: cs.LG, cs.AI
发布日期: 2024-10-05 (更新: 2025-01-09)
备注: 10 pages
💡 一句话要点
PalmBench:移动平台压缩大语言模型综合评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 移动平台 模型压缩 量化 性能评测 资源效率 有害内容检测
📋 核心要点
- 在移动设备上本地部署大型语言模型,可以避免因隐私或网络连接问题而向云服务器传输数据。
- PalmBench提供了一个自动化评测框架,用于评估压缩LLM在移动设备上的质量、延迟、吞吐量和资源效率。
- 实验结果揭示了不同移动平台、量化方法对LLM性能的影响,以及压缩模型产生有害内容的频率。
📝 摘要(中文)
本文提出PalmBench,一个轻量级、一体化的自动化评测框架,用于评估移动设备上的大语言模型(LLM)。该框架全面评测了不同量化配置(权重和激活)的流行LLM在多种具有不同硬件能力的移动平台上的表现。与传统评估完整模型在高端GPU集群上的基准不同,本文侧重于评估压缩模型在移动设备上的资源效率(内存和功耗)以及有害输出。主要观察包括:i) 不同移动平台在能效和吞吐量上的差异;ii) 量化对内存使用、GPU执行时间和功耗的影响;iii) 量化模型相对于非量化模型的准确性和性能下降;iv) 压缩LLM在移动设备上产生幻觉和有毒内容的频率。
🔬 方法详解
问题定义:现有的大语言模型通常在高性能服务器上运行,难以直接部署在资源受限的移动设备上。虽然模型压缩技术可以减小模型体积,但如何在移动设备上高效地评估压缩后模型的性能(包括生成质量、延迟、功耗等)是一个挑战。现有的评测基准通常针对完整模型,缺乏对压缩模型在移动设备上的全面评估。
核心思路:PalmBench的核心思路是构建一个轻量级、自动化、一体化的评测框架,能够方便地在各种移动设备上评估压缩大语言模型的性能。通过对不同量化配置的模型进行评测,分析量化对模型性能、资源消耗和有害内容生成的影响,从而为移动设备上的LLM部署提供指导。
技术框架:PalmBench框架主要包含以下几个模块:模型加载模块(负责加载不同量化配置的LLM)、推理执行模块(在移动设备上运行LLM并记录性能数据)、评估指标计算模块(计算生成质量、延迟、功耗等指标)和有害内容检测模块(检测模型生成的幻觉和有毒内容)。该框架支持多种移动平台和LLM,并提供自动化评测流程。
关键创新:PalmBench的关键创新在于其针对移动设备上压缩LLM的全面评测能力。它不仅关注模型的生成质量和延迟,还关注资源消耗(内存和功耗)以及有害内容生成。此外,PalmBench提供了一个自动化评测流程,方便用户快速评估不同模型的性能。
关键设计:PalmBench的关键设计包括:支持多种量化方法(如INT8、INT4等),以评估量化对模型性能的影响;采用标准化的评估指标,如困惑度(perplexity)、生成速度(tokens/s)和功耗(W);使用专门的有害内容检测工具,评估模型生成幻觉和有毒内容的频率。
📊 实验亮点
实验结果表明,不同移动平台在能效和吞吐量上存在显著差异。量化可以有效减小模型体积,但也会导致准确性和性能下降。例如,INT8量化通常可以在保持可接受的准确率下降的情况下,显著降低内存占用和功耗。此外,实验还发现,压缩后的LLM在移动设备上更容易产生幻觉和有毒内容,需要进一步研究缓解方法。
🎯 应用场景
PalmBench的研究成果可应用于移动设备上的本地LLM部署,例如智能助手、离线翻译、文本生成等。该基准可以帮助开发者选择合适的压缩方法和模型配置,以在移动设备的资源限制下实现最佳的性能和用户体验。此外,该研究也有助于推动移动AI技术的发展,促进更多智能应用在移动设备上的普及。
📄 摘要(原文)
Deploying large language models (LLMs) locally on mobile devices is advantageous in scenarios where transmitting data to remote cloud servers is either undesirable due to privacy concerns or impractical due to network connection. Recent advancements (MLC, 2023a; Gerganov, 2023) have facilitated the local deployment of LLMs. However, local deployment also presents challenges, particularly in balancing quality (generative performance), latency, and throughput within the hardware constraints of mobile devices. In this paper, we introduce our lightweight, all-in-one automated benchmarking framework that allows users to evaluate LLMs on mobile devices. We provide a comprehensive benchmark of various popular LLMs with different quantization configurations (both weights and activations) across multiple mobile platforms with varying hardware capabilities. Unlike traditional benchmarks that assess full-scale models on high-end GPU clusters, we focus on evaluating resource efficiency (memory and power consumption) and harmful output for compressed models on mobile devices. Our key observations include i) differences in energy efficiency and throughput across mobile platforms; ii) the impact of quantization on memory usage, GPU execution time, and power consumption; and iii) accuracy and performance degradation of quantized models compared to their non-quantized counterparts; and iv) the frequency of hallucinations and toxic content generated by compressed LLMs on mobile devices.