BitNet a4.8: 4-bit Activations for 1-bit LLMs

📄 arXiv: 2411.04965v1 📥 PDF

作者: Hongyu Wang, Shuming Ma, Furu Wei

分类: cs.CL, cs.LG

发布日期: 2024-11-07

备注: Work in progress


💡 一句话要点

BitNet a4.8:为1-bit LLM引入4-bit激活,提升推理效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 1-bit LLM 量化 稀疏化 推理加速 低比特模型 混合量化 大语言模型

📋 核心要点

  1. 现有1-bit LLM虽然降低了计算成本,但量化误差带来的性能损失和推理速度仍有提升空间。
  2. BitNet a4.8通过混合量化和稀疏化策略,在降低量化误差的同时,减少了激活参数的数量。
  3. 实验表明,BitNet a4.8在保持性能的同时,提升了推理速度,并降低了内存占用。

📝 摘要(中文)

本文提出了BitNet a4.8,一种为1-bit大语言模型(LLM)设计的方案,旨在降低LLM的推理成本并保持其性能。BitNet a4.8采用混合量化和稀疏化策略,以减轻异常通道引起的量化误差。具体来说,它对注意力层和前馈网络层的输入使用4-bit激活,并对中间状态进行稀疏化处理,然后进行8-bit量化。实验结果表明,BitNet a4.8在训练成本相当的情况下,性能与BitNet b1.58相当,并且由于启用了4-bit (INT4/FP4)内核,推理速度更快。此外,BitNet a4.8仅激活55%的参数,并支持3-bit KV缓存,从而进一步提高了大规模LLM部署和推理的效率。

🔬 方法详解

问题定义:现有1-bit LLM虽然在降低计算成本方面取得了进展,但由于极低的比特数表示,量化误差成为影响模型性能的关键因素。此外,如何在保证性能的前提下进一步提升推理速度和降低内存占用也是一个挑战。

核心思路:BitNet a4.8的核心思路是采用混合量化和稀疏化策略,即对关键的输入激活采用4-bit量化,以减少量化误差,同时对中间状态进行稀疏化处理,以减少计算量和内存占用。这种混合策略旨在在性能、速度和内存之间取得平衡。

技术框架:BitNet a4.8的技术框架主要包括以下几个阶段:首先,对注意力层和前馈网络层的输入进行4-bit量化。然后,在网络中间层进行稀疏化处理,减少激活参数的数量。最后,对稀疏化后的中间状态进行8-bit量化。此外,BitNet a4.8还支持3-bit KV缓存,以进一步降低内存占用。

关键创新:BitNet a4.8的关键创新在于混合量化和稀疏化策略的结合。与传统的全1-bit量化方法相比,BitNet a4.8通过对关键输入采用4-bit量化,显著降低了量化误差。同时,通过稀疏化中间状态,进一步减少了计算量和内存占用。

关键设计:BitNet a4.8的关键设计包括:1) 选择注意力层和前馈网络层的输入作为4-bit量化的对象,因为这些层的输入对模型性能影响较大。2) 采用特定的稀疏化算法,以在减少计算量的同时,尽量保持模型性能。3) 使用8-bit量化对稀疏化后的中间状态进行量化,以进一步降低内存占用。4) 支持3-bit KV缓存,以减少在推理过程中对KV缓存的内存需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BitNet a4.8在性能上与BitNet b1.58相当,但推理速度更快,这归功于4-bit内核的启用。此外,BitNet a4.8仅激活55%的参数,并支持3-bit KV缓存,显著降低了内存占用。这些实验结果表明,BitNet a4.8在降低计算成本和内存占用的同时,保持了良好的性能。

🎯 应用场景

BitNet a4.8具有广泛的应用前景,尤其是在资源受限的设备上部署大型语言模型。例如,它可以应用于移动设备、边缘计算设备和嵌入式系统,从而实现低成本、高性能的AI应用。此外,BitNet a4.8还可以用于加速LLM的推理过程,提高在线服务的响应速度。

📄 摘要(原文)

Recent research on the 1-bit Large Language Models (LLMs), such as BitNet b1.58, presents a promising direction for reducing the inference cost of LLMs while maintaining their performance. In this work, we introduce BitNet a4.8, enabling 4-bit activations for 1-bit LLMs. BitNet a4.8 employs a hybrid quantization and sparsification strategy to mitigate the quantization errors introduced by the outlier channels. Specifically, we utilize 4-bit activations for inputs to the attention and feed-forward network layers, while sparsifying intermediate states followed with 8-bit quantization. Extensive experiments demonstrate that BitNet a4.8 achieves performance comparable to BitNet b1.58 with equivalent training costs, while being faster in inference with enabling 4-bit (INT4/FP4) kernels. Additionally, BitNet a4.8 activates only 55% of parameters and supports 3-bit KV cache, further enhancing the efficiency of large-scale LLM deployment and inference.