LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit
作者: Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Chengtao Lv, Yunchen Zhang, Xianglong Liu, Dacheng Tao
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-05-09 (更新: 2024-10-09)
备注: Accepted by EMNLP 2024 Industry Track
🔗 代码/项目: GITHUB
💡 一句话要点
LLMC:基于通用压缩工具包的大语言模型量化基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 模型压缩 基准测试 工具包
📋 核心要点
- 现有大语言模型量化研究缺乏统一的基准和工具,导致不同量化方法难以公平比较。
- LLMC工具包旨在提供一个通用、可扩展的平台,用于系统性地评估和比较各种量化算法。
- 该基准测试涵盖校准数据、量化算法和数据格式三个关键方面,为量化研究提供洞察和实践指导。
📝 摘要(中文)
大语言模型(LLMs)的最新进展凭借其卓越的涌现能力和推理能力,正推动我们走向通用人工智能。然而,巨大的计算和内存需求限制了其广泛应用。量化作为一种关键的压缩技术,可以通过压缩和加速LLM来有效缓解这些需求,但也存在精度下降的潜在风险。许多研究旨在最大限度地减少与量化相关的精度损失。然而,它们的量化配置各不相同,无法进行公平的比较。在本文中,我们提出了LLMC,一个即插即用的压缩工具包,以公平和系统地探索量化的影响。LLMC集成了数十种算法、模型和硬件,提供从整数到浮点量化、从LLM到视觉语言(VLM)模型、从固定位到混合精度以及从量化到稀疏化的强大可扩展性。借助这个多功能工具包,我们的基准测试涵盖了三个关键方面:校准数据、算法(三种策略)和数据格式,为进一步的研究提供了新的见解和详细的分析,并为用户提供了实践指导。我们的工具包可在https://github.com/ModelTC/llmc获取。
🔬 方法详解
问题定义:现有的大语言模型量化研究中,不同的研究使用了不同的量化配置,包括不同的校准数据集、量化算法和数据格式。这使得不同量化方法之间的性能比较变得困难,阻碍了量化技术的发展。因此,需要一个统一的、可扩展的平台,用于公平地评估和比较各种量化算法。
核心思路:LLMC的核心思路是构建一个即插即用的通用压缩工具包,该工具包集成了多种量化算法、模型和硬件,并提供灵活的配置选项。通过使用LLMC,研究人员可以方便地在相同的实验条件下评估不同的量化方法,从而实现公平的比较。
技术框架:LLMC工具包的整体架构包括以下几个主要模块:1) 数据加载模块:用于加载各种校准数据集;2) 量化算法模块:集成了多种量化算法,包括整数量化、浮点量化、固定位量化和混合精度量化等;3) 模型集成模块:支持多种大语言模型和视觉语言模型;4) 硬件支持模块:支持多种硬件平台;5) 评估模块:用于评估量化模型的性能,包括精度、速度和内存占用等。
关键创新:LLMC的关键创新在于其通用性和可扩展性。它不仅集成了多种现有的量化算法,还提供了灵活的配置选项,允许用户自定义量化流程。此外,LLMC还支持多种模型和硬件平台,使其能够应用于各种不同的场景。
关键设计:LLMC的关键设计包括:1) 即插即用的架构,方便用户添加新的量化算法和模型;2) 灵活的配置选项,允许用户自定义量化流程;3) 统一的评估指标,用于公平地比较不同的量化方法。此外,LLMC还提供了一些预定义的量化配置,方便用户快速上手。
🖼️ 关键图片
📊 实验亮点
LLMC基准测试涵盖了校准数据、算法和数据格式三个关键方面,提供了对量化影响的深入分析。实验结果表明,不同的量化算法在不同的模型和数据集上表现不同,混合精度量化可以在保持精度的同时显著降低内存占用。该基准测试为进一步的研究和实践提供了有价值的指导。
🎯 应用场景
LLMC工具包可用于加速和压缩大语言模型,降低其计算和内存需求,从而使其能够在资源受限的设备上运行,例如移动设备和嵌入式系统。这有助于推动大语言模型在各个领域的应用,例如智能助手、机器翻译和自然语言处理。
📄 摘要(原文)
Recent advancements in large language models (LLMs) are propelling us toward artificial general intelligence with their remarkable emergent abilities and reasoning capabilities. However, the substantial computational and memory requirements limit the widespread adoption. Quantization, a key compression technique, can effectively mitigate these demands by compressing and accelerating LLMs, albeit with potential risks to accuracy. Numerous studies have aimed to minimize the accuracy loss associated with quantization. However, their quantization configurations vary from each other and cannot be fairly compared. In this paper, we present LLMC, a plug-and-play compression toolkit, to fairly and systematically explore the impact of quantization. LLMC integrates dozens of algorithms, models, and hardwares, offering high extensibility from integer to floating-point quantization, from LLM to vision-language (VLM) model, from fixed-bit to mixed precision, and from quantization to sparsification. Powered by this versatile toolkit, our benchmark covers three key aspects: calibration data, algorithms (three strategies), and data formats, providing novel insights and detailed analyses for further research and practical guidance for users. Our toolkit is available at https://github.com/ModelTC/llmc.