BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

📄 arXiv: 2504.18415v2 📥 PDF

作者: Hongyu Wang, Shuming Ma, Furu Wei

分类: cs.CL, cs.LG

发布日期: 2025-04-25 (更新: 2025-06-13)

备注: Work in progress


💡 一句话要点

BitNet v2:利用Hadamard变换实现原生4比特激活的1比特LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 1比特LLM 低比特量化 Hadamard变换 激活值异常值 模型压缩

📋 核心要点

  1. 1比特LLM部署面临激活值异常值挑战,阻碍了低比特量化,影响效率。
  2. BitNet v2通过H-BitLinear模块,利用Hadamard变换平滑激活分布,使其更适合低比特表示。
  3. 实验表明,BitNet v2在4比特激活下训练,性能下降极小,显著降低内存和计算成本。

📝 摘要(中文)

1比特大语言模型(LLM)的高效部署受到激活值异常值的阻碍,这使得量化到低比特宽度变得复杂。我们提出了BitNet v2,这是一个新颖的框架,能够为1比特LLM实现原生4比特激活量化。为了解决注意力和前馈网络激活中的异常值问题,我们提出了H-BitLinear模块,该模块在激活量化之前应用在线Hadamard变换。这种变换将尖锐的激活分布平滑为更像高斯分布的形式,适合低比特表示。实验表明,从头开始使用8比特激活训练的BitNet v2可以匹配BitNet b1.58的性能。至关重要的是,BitNet v2在使用原生4比特激活训练时实现了最小的性能下降,显著降低了批量推理的内存占用和计算成本。

🔬 方法详解

问题定义:现有1比特LLM在部署时,激活值中存在大量异常值,这些异常值使得将激活值量化到低比特(如4比特)变得非常困难,从而限制了模型的压缩和加速潜力。现有的量化方法难以有效处理这些异常值,导致性能显著下降。

核心思路:论文的核心思路是在激活值量化之前,通过Hadamard变换对激活值进行预处理。Hadamard变换可以将尖锐的、非高斯分布的激活值分布平滑化,使其更接近高斯分布。这种平滑化的激活值分布更适合进行低比特量化,从而减少量化误差,提升模型性能。

技术框架:BitNet v2的整体框架与标准的Transformer架构类似,主要改进在于引入了H-BitLinear模块。该模块被应用于注意力机制和前馈网络中,在激活值量化之前执行Hadamard变换。具体流程是:输入 -> Hadamard变换 -> 量化 -> 后续操作。

关键创新:最重要的技术创新点是H-BitLinear模块以及其中应用的在线Hadamard变换。与传统的量化方法不同,BitNet v2不是直接对原始激活值进行量化,而是先通过Hadamard变换改变激活值的分布,使其更易于量化。这种预处理的方式能够有效缓解激活值异常值带来的问题。

关键设计:H-BitLinear模块的关键设计在于Hadamard变换的实现方式。论文采用在线Hadamard变换,这意味着变换矩阵是在训练过程中学习得到的,而不是预先设定的。此外,论文还仔细设计了量化函数,以确保量化后的激活值能够有效地表达原始信息。具体的参数设置和损失函数细节在论文中有详细描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BitNet v2的主要实验结果表明,使用8比特激活从头训练的BitNet v2模型能够达到与BitNet b1.58相当的性能。更重要的是,当使用原生4比特激活进行训练时,BitNet v2的性能下降非常小,这证明了其在低比特量化方面的有效性。这些结果表明,BitNet v2能够在显著降低内存占用和计算成本的同时,保持良好的模型性能。

🎯 应用场景

BitNet v2具有广泛的应用前景,尤其是在资源受限的场景下,如移动设备、边缘计算和嵌入式系统。通过降低内存占用和计算成本,BitNet v2使得在这些平台上部署和运行大型语言模型成为可能。此外,该技术还可以应用于其他类型的神经网络,以提高其量化效率和性能。

📄 摘要(原文)

Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.