BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

作者: Hongyu Wang, Shuming Ma, Furu Wei

分类: cs.CL, cs.LG

发布日期: 2025-04-25 (更新: 2025-06-13)

备注: Work in progress

💡 一句话要点

BitNet v2：利用Hadamard变换实现原生4比特激活的1比特LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 1比特LLM 低比特量化 Hadamard变换 激活值异常值 模型压缩

📋 核心要点

1比特LLM部署面临激活值异常值挑战，阻碍了低比特量化，影响效率。
BitNet v2通过H-BitLinear模块，利用Hadamard变换平滑激活分布，使其更适合低比特表示。
实验表明，BitNet v2在4比特激活下训练，性能下降极小，显著降低内存和计算成本。

📝 摘要（中文）

1比特大语言模型(LLM)的高效部署受到激活值异常值的阻碍，这使得量化到低比特宽度变得复杂。我们提出了BitNet v2，这是一个新颖的框架，能够为1比特LLM实现原生4比特激活量化。为了解决注意力和前馈网络激活中的异常值问题，我们提出了H-BitLinear模块，该模块在激活量化之前应用在线Hadamard变换。这种变换将尖锐的激活分布平滑为更像高斯分布的形式，适合低比特表示。实验表明，从头开始使用8比特激活训练的BitNet v2可以匹配BitNet b1.58的性能。至关重要的是，BitNet v2在使用原生4比特激活训练时实现了最小的性能下降，显著降低了批量推理的内存占用和计算成本。

🔬 方法详解

问题定义：现有1比特LLM在部署时，激活值中存在大量异常值，这些异常值使得将激活值量化到低比特（如4比特）变得非常困难，从而限制了模型的压缩和加速潜力。现有的量化方法难以有效处理这些异常值，导致性能显著下降。

核心思路：论文的核心思路是在激活值量化之前，通过Hadamard变换对激活值进行预处理。Hadamard变换可以将尖锐的、非高斯分布的激活值分布平滑化，使其更接近高斯分布。这种平滑化的激活值分布更适合进行低比特量化，从而减少量化误差，提升模型性能。

技术框架：BitNet v2的整体框架与标准的Transformer架构类似，主要改进在于引入了H-BitLinear模块。该模块被应用于注意力机制和前馈网络中，在激活值量化之前执行Hadamard变换。具体流程是：输入 -> Hadamard变换 -> 量化 -> 后续操作。

关键创新：最重要的技术创新点是H-BitLinear模块以及其中应用的在线Hadamard变换。与传统的量化方法不同，BitNet v2不是直接对原始激活值进行量化，而是先通过Hadamard变换改变激活值的分布，使其更易于量化。这种预处理的方式能够有效缓解激活值异常值带来的问题。

关键设计：H-BitLinear模块的关键设计在于Hadamard变换的实现方式。论文采用在线Hadamard变换，这意味着变换矩阵是在训练过程中学习得到的，而不是预先设定的。此外，论文还仔细设计了量化函数，以确保量化后的激活值能够有效地表达原始信息。具体的参数设置和损失函数细节在论文中有详细描述，但摘要中未明确提及。

🖼️ 关键图片

📊 实验亮点

BitNet v2的主要实验结果表明，使用8比特激活从头训练的BitNet v2模型能够达到与BitNet b1.58相当的性能。更重要的是，当使用原生4比特激活进行训练时，BitNet v2的性能下降非常小，这证明了其在低比特量化方面的有效性。这些结果表明，BitNet v2能够在显著降低内存占用和计算成本的同时，保持良好的模型性能。

🎯 应用场景

BitNet v2具有广泛的应用前景，尤其是在资源受限的场景下，如移动设备、边缘计算和嵌入式系统。通过降低内存占用和计算成本，BitNet v2使得在这些平台上部署和运行大型语言模型成为可能。此外，该技术还可以应用于其他类型的神经网络，以提高其量化效率和性能。

📄 摘要（原文）

Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理