More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization

作者: Yuma Ichikawa, Yoshihiko Fujisawa, Yudai Fujimoto, Akira Sakai, Katsuki Fujisawa

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2025-12-31

备注: 14 pages, 2 figures

💡 一句话要点

提出多包络双二值分解(MDBF)，用于大语言模型极低比特量化，提升精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 极低比特量化 大语言模型 二值分解 模型压缩 多包络 LLaMA Qwen

📋 核心要点

DBF量化方法在极低比特量化大语言模型时表现出潜力，但其缩放参数限制了性能。
MDBF通过引入多包络结构，增强了模型对幅度的表达能力，同时保持了二值载体的优势。
实验结果表明，MDBF在LLaMA和Qwen模型上，以相同比特数实现了更好的困惑度和零样本精度。

📝 摘要（中文）

针对大语言模型(LLMs)的极低比特量化，双二值分解(DBF)因其在不牺牲精度的情况下实现高效推理而备受关注。然而，DBF的缩放参数过于严格；在分解出符号后，所有秩分量共享相同的幅度分布，导致性能饱和。我们提出了多包络DBF(MDBF)，它保留了一对共享的1比特符号基，但将单个包络替换为秩为$l$的包络。通过在包络分量之间共享符号矩阵，MDBF有效地维护了一个二值载体，并利用有限的内存预算来提高幅度表达能力。我们还引入了一种闭式初始化方法和一种交替细化方法来优化MDBF。在LLaMA和Qwen系列模型上，MDBF在匹配每权重比特数的情况下，提高了困惑度和零样本精度，同时保留了相同的部署友好的推理原语。

🔬 方法详解

问题定义：现有DBF方法在极低比特量化大语言模型时，由于其缩放参数的限制，导致模型性能饱和。具体来说，DBF在分解符号后，所有秩分量共享相同的幅度分布，无法充分利用量化比特的表达能力。

核心思路：MDBF的核心思路是通过引入多包络结构来增强模型对幅度的表达能力。MDBF保留了DBF中共享的1比特符号基，但将单个包络替换为多个包络，每个包络对应不同的幅度分布。通过在包络分量之间共享符号矩阵，MDBF有效地利用了有限的内存预算，专注于提升幅度表达能力。

技术框架：MDBF的整体框架可以概括为以下几个步骤：1) 初始化：使用闭式解初始化MDBF的各个参数，包括符号基和多个包络。2) 交替优化：采用交替细化方法优化MDBF的参数。具体来说，固定符号基，优化包络；然后固定包络，优化符号基。重复此过程直到收敛。3) 推理：使用量化后的MDBF模型进行推理。

关键创新：MDBF最重要的技术创新点在于引入了多包络结构。与DBF的单包络结构相比，MDBF的多包络结构能够更好地捕捉模型权重的幅度分布，从而提升量化模型的精度。此外，MDBF还提出了一种闭式初始化方法和一种交替细化方法，用于优化MDBF的参数。

关键设计：MDBF的关键设计包括：1) 包络数量的选择：包络数量的选择会影响模型的表达能力和计算复杂度。论文中可能探讨了不同包络数量对模型性能的影响。2) 符号基的共享：通过在包络分量之间共享符号矩阵，MDBF有效地维护了一个二值载体，并降低了内存占用。3) 闭式初始化方法：闭式初始化方法能够为MDBF提供一个良好的初始点，加速模型的收敛。

🖼️ 关键图片

📊 实验亮点

MDBF在LLaMA和Qwen系列模型上进行了实验，结果表明，在匹配每权重比特数的情况下，MDBF显著提高了困惑度和零样本精度。具体来说，MDBF在保持相同推理原语的前提下，超越了之前的二值量化方法，证明了其在极低比特量化方面的优越性。实验结果表明，MDBF能够有效地提升量化模型的性能，使其更接近全精度模型的水平。

🎯 应用场景

MDBF适用于对计算资源和存储空间有严格限制的场景，例如移动设备、嵌入式系统等。通过极低比特量化，MDBF可以在这些平台上部署大型语言模型，实现高效的本地推理。此外，MDBF还可以应用于云计算等场景，降低模型部署和推理的成本，提高资源利用率。未来，MDBF有望推动大语言模型在更广泛的应用场景中的普及。

📄 摘要（原文）

For extreme low-bit quantization of large language models (LLMs), Double Binary Factorization (DBF) is attractive as it enables efficient inference without sacrificing accuracy. However, the scaling parameters of DBF are too restrictive; after factoring out signs, all rank components share the same magnitude profile, resulting in performance saturation. We propose Multi-envelope DBF (MDBF), which retains a shared pair of 1-bit sign bases but replaces the single envelope with a rank-$l$ envelope. By sharing sign matrices among envelope components, MDBF effectively maintains a binary carrier and utilizes the limited memory budget for magnitude expressiveness. We also introduce a closed-form initialization and an alternating refinement method to optimize MDBF. Across the LLaMA and Qwen families, MDBF enhances perplexity and zero-shot accuracy over previous binary formats at matched bits per weight while preserving the same deployment-friendly inference primitive.

More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理