Optimizing LLMs Using Quantization for Mobile Execution

作者: Agatsya Yadav, Renta Chintala Bhargavi

分类: cs.LG

发布日期: 2025-12-06

备注: 11 pages, 1 equation, 2 tables. Author Accepted Manuscript (AAM) of a paper published in Springer LNNS, ICT4SD 2025. DOI: 10.1007/978-3-032-06697-8_33

期刊: Fong, S., Dey, N., Joshi, A. (eds) ICT Analysis and Applications. ICT4SD 2025. Lecture Notes in Networks and Systems, vol 1654. Springer, Cham

DOI: 10.1007/978-3-032-06697-8_33

💡 一句话要点

利用量化优化LLM以在移动设备上执行

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后训练量化 模型压缩 移动设备 GGUF格式

📋 核心要点

大型语言模型在移动设备上的部署受限于其巨大的模型体积和计算资源需求。
本文探索了后训练量化（PTQ）方法，旨在压缩LLM，使其能够在资源受限的移动设备上高效运行。
实验结果表明，4位PTQ结合GGUF格式能够显著减小模型大小，并成功在Android设备上运行Llama 3.2 3B模型。

📝 摘要（中文）

大型语言模型(LLM)功能强大，但其庞大的规模和计算需求阻碍了在资源受限的移动设备上的部署。本文研究了后训练量化(PTQ)技术，用于压缩LLM以便在移动设备上执行。我们使用BitsAndBytes库和Hugging Face Transformers框架，对Meta的Llama 3.2 3B模型应用4位PTQ。量化后的模型使用llama.cpp工具转换为GGUF格式，以优化移动推理。PTQ工作流程通过4位量化实现了68.66%的模型大小缩减，使Llama 3.2 3B模型能够在Android设备上高效运行。定性验证表明，4位量化模型可以成功执行推理任务。我们展示了在Android设备上使用Termux环境和Ollama框架运行量化的GGUF模型的可行性。PTQ，特别是4位精度与GGUF等移动优化格式相结合，为在移动设备上部署高性能LLM提供了一条切实可行的途径，从而平衡了模型大小和性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在资源受限的移动设备上部署的问题。现有方法由于模型体积过大和计算需求高昂，难以在移动设备上实现高效推理。因此，需要一种有效的模型压缩技术，能够在保证模型性能的同时，显著减小模型大小，降低计算复杂度。

核心思路：论文的核心思路是利用后训练量化（PTQ）技术，将LLM的权重从高精度浮点数转换为低精度整数，从而减小模型大小和计算量。同时，采用GGUF格式，这是一种针对移动设备优化的模型格式，能够进一步提升推理效率。通过PTQ和GGUF格式的结合，实现在移动设备上部署高性能LLM的目标。

技术框架：整体流程包括以下几个主要阶段：1) 使用Hugging Face Transformers框架加载Llama 3.2 3B模型；2) 使用BitsAndBytes库对模型进行4位PTQ；3) 使用llama.cpp工具将量化后的模型转换为GGUF格式；4) 在Android设备上，使用Termux环境和Ollama框架加载并运行GGUF模型，进行推理测试。

关键创新：论文的关键创新在于将4位PTQ技术与移动设备优化的GGUF格式相结合，成功地在Android设备上部署了Llama 3.2 3B模型。与传统的模型压缩方法相比，PTQ具有简单易用、无需重新训练的优点，而GGUF格式则能够充分利用移动设备的硬件资源，提升推理速度。

关键设计：论文采用了4位PTQ，这是一种相对激进的量化方案，能够在显著减小模型大小的同时，尽可能地保持模型性能。GGUF格式的设计考虑了移动设备的内存和计算能力限制，通过优化数据存储和计算方式，提升了推理效率。具体参数设置和损失函数细节未在摘要中提及，属于未知信息。

📊 实验亮点

实验结果表明，通过4位PTQ，Llama 3.2 3B模型的体积减少了68.66%，使其能够在Android设备上高效运行。定性验证表明，量化后的模型能够成功执行推理任务。该研究证明了PTQ结合GGUF格式是移动设备上部署LLM的一种有效途径。

🎯 应用场景

该研究成果可广泛应用于移动设备上的自然语言处理任务，例如智能助手、机器翻译、文本摘要等。通过在本地部署LLM，可以提高响应速度、保护用户隐私，并减少对网络连接的依赖。未来，该技术有望推动LLM在移动互联网、物联网等领域的普及应用。

📄 摘要（原文）

Large Language Models (LLMs) offer powerful capabilities, but their significant size and computational requirements hinder deployment on resource-constrained mobile devices. This paper investigates Post-Training Quantization (PTQ) for compressing LLMs for mobile execution. We apply 4-bit PTQ using the BitsAndBytes library with the Hugging Face Transformers framework to Meta's Llama 3.2 3B model. The quantized model is converted to GGUF format using llama.cpp tools for optimized mobile inference. The PTQ workflow achieves a 68.66% reduction in model size through 4-bit quantization, enabling the Llama 3.2 3B model to run efficiently on an Android device. Qualitative validation shows that the 4-bit quantized model can perform inference tasks successfully. We demonstrate the feasibility of running the quantized GGUF model on an Android device using the Termux environment and the Ollama framework. PTQ, especially at 4-bit precision combined with mobile-optimized formats like GGUF, provides a practical pathway for deploying capable LLMs on mobile devices, balancing model size and performance.

Optimizing LLMs Using Quantization for Mobile Execution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理