Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks

📄 arXiv: 2410.14766v1 📥 PDF

作者: Enkhbold Nyamsuren

分类: cs.SE, cs.AI, cs.ET, cs.LG, cs.PL

发布日期: 2024-10-18


💡 一句话要点

评估量化大语言模型在低资源语言代码生成任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型量化 低资源语言 代码生成 模型压缩 边缘计算

📋 核心要点

  1. 大语言模型因其高计算需求而缺乏可访问性,本研究旨在解决这一问题,探索AI民主化。
  2. 通过量化降低大语言模型的计算需求,使其能够在通用消费设备上运行,从而提高可访问性。
  3. 实验表明,4位整数精度量化在性能和模型大小之间取得了最佳平衡,可在普通笔记本电脑上部署。

📝 摘要(中文)

本研究评估了量化是否是使大语言模型能够在通用消费设备上运行的可行方法。研究评估了五个量化的代码大语言模型在Lua代码生成任务中的性能。为了评估量化的影响,在消费级笔记本电脑上以2位、4位和8位整数精度测试了具有70亿参数的模型,并将其与具有13亿、20亿和30亿参数的非量化代码大语言模型进行了比较。选择Lua作为低级资源语言,以避免模型对高级资源语言的偏见。结果表明,以4位整数精度量化的模型在性能和模型大小之间提供了最佳的折衷方案。这些模型可以舒适地部署在没有专用GPU的普通笔记本电脑上。在2位整数精度下,性能显着下降。8位整数精度的模型需要更多的推理时间,但并未有效地转化为更好的性能。具有70亿参数的4位模型也明显优于参数数量较低的非量化模型,尽管它们在存储和内存需求方面具有可比的模型大小。虽然量化确实提高了具有70亿参数的较小大语言模型的可访问性,但这些大语言模型在Lua代码生成等高精度和低资源任务上的总体性能较低(低于50%)。虽然可访问性得到了提高,但可用性仍未达到与GPT-4o或Llama 3.1 405B等基础大语言模型相当的实用水平。

🔬 方法详解

问题定义:现有的大语言模型计算需求高,难以在资源受限的设备上部署,阻碍了AI的普及。尤其是在低资源语言的代码生成任务中,模型容易受到高资源语言的偏见影响,性能表现不佳。

核心思路:通过模型量化,降低模型的存储空间和计算复杂度,从而使其能够在资源受限的设备上运行。选择Lua作为低资源语言,以减少模型对高资源语言的偏见,更真实地评估量化模型在低资源场景下的性能。

技术框架:该研究主要评估了不同量化精度(2-bit, 4-bit, 8-bit)对7B参数大语言模型在Lua代码生成任务上的影响。同时,与非量化的小模型(1.3B, 2B, 3B)进行对比,以评估量化带来的性能损失和收益。实验在消费级笔记本电脑上进行,评估指标包括代码生成准确率和推理时间。

关键创新:该研究的关键创新在于系统性地评估了量化技术在低资源语言代码生成任务中的有效性。不同于以往主要关注高资源语言的量化研究,该研究关注了量化模型在低资源场景下的性能表现,并分析了不同量化精度对性能的影响。

关键设计:实验中,选择了Lua作为目标语言,避免模型对高资源语言的偏见。评估了2-bit, 4-bit, 8-bit三种量化精度,并与非量化模型进行对比。使用消费级笔记本电脑进行推理,模拟了实际应用场景。评估指标包括代码生成准确率和推理时间,综合评估了量化模型的性能和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,4位整数精度量化在性能和模型大小之间取得了最佳平衡,可以在普通笔记本电脑上部署70亿参数的模型,且性能优于参数量更小的非量化模型。然而,即使采用量化技术,大语言模型在低资源语言代码生成任务中的绝对性能仍然较低(低于50%),与GPT-4o等大型模型相比仍有差距。

🎯 应用场景

该研究成果可应用于边缘计算、嵌入式系统等资源受限的场景,例如在智能家居设备、机器人等设备上部署轻量级代码生成模型。通过量化技术,可以降低大语言模型的部署成本,提高其在低资源环境下的可用性,促进AI技术的普及。

📄 摘要(原文)

Democratization of AI is an important topic within the broader topic of the digital divide. This issue is relevant to LLMs, which are becoming popular as AI co-pilots but suffer from a lack of accessibility due to high computational demand. In this study, we evaluate whether quantization is a viable approach toward enabling LLMs on generic consumer devices. The study assesses the performance of five quantized code LLMs in Lua code generation tasks. To evaluate the impact of quantization, the models with 7B parameters were tested on a consumer laptop at 2-, 4-, and 8-bit integer precisions and compared to non-quantized code LLMs with 1.3, 2, and 3 billion parameters. Lua is chosen as a low-level resource language to avoid models' biases related to high-resource languages. The results suggest that the models quantized at the 4-bit integer precision offer the best trade-off between performance and model size. These models can be comfortably deployed on an average laptop without a dedicated GPU. The performance significantly drops at the 2-bit integer precision. The models at 8-bit integer precision require more inference time that does not effectively translate to better performance. The 4-bit models with 7 billion parameters also considerably outperform non-quantized models with lower parameter numbers despite having comparable model sizes with respect to storage and memory demand. While quantization indeed increases the accessibility of smaller LLMs with 7 billion parameters, these LLMs demonstrate overall low performance (less than 50\%) on high-precision and low-resource tasks such as Lua code generation. While accessibility is improved, usability is still not at the practical level comparable to foundational LLMs such as GPT-4o or Llama 3.1 405B.