More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization

📄 arXiv: 2512.24545v1 📥 PDF

作者: Yuma Ichikawa, Yoshihiko Fujisawa, Yudai Fujimoto, Akira Sakai, Katsuki Fujisawa

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2025-12-31

备注: 14 pages, 2 figures


💡 一句话要点

提出多包络双二值分解(MDBF),用于大语言模型极低比特量化,提升精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 极低比特量化 大语言模型 二值分解 模型压缩 多包络 LLaMA Qwen

📋 核心要点

  1. DBF量化方法在极低比特量化大语言模型时表现出潜力,但其缩放参数限制了性能。
  2. MDBF通过引入多包络结构,增强了模型对幅度的表达能力,同时保持了二值载体的优势。
  3. 实验结果表明,MDBF在LLaMA和Qwen模型上,以相同比特数实现了更好的困惑度和零样本精度。

📝 摘要(中文)

针对大语言模型(LLMs)的极低比特量化,双二值分解(DBF)因其在不牺牲精度的情况下实现高效推理而备受关注。然而,DBF的缩放参数过于严格;在分解出符号后,所有秩分量共享相同的幅度分布,导致性能饱和。我们提出了多包络DBF(MDBF),它保留了一对共享的1比特符号基,但将单个包络替换为秩为$l$的包络。通过在包络分量之间共享符号矩阵,MDBF有效地维护了一个二值载体,并利用有限的内存预算来提高幅度表达能力。我们还引入了一种闭式初始化方法和一种交替细化方法来优化MDBF。在LLaMA和Qwen系列模型上,MDBF在匹配每权重比特数的情况下,提高了困惑度和零样本精度,同时保留了相同的部署友好的推理原语。

🔬 方法详解

问题定义:现有DBF方法在极低比特量化大语言模型时,由于其缩放参数的限制,导致模型性能饱和。具体来说,DBF在分解符号后,所有秩分量共享相同的幅度分布,无法充分利用量化比特的表达能力。

核心思路:MDBF的核心思路是通过引入多包络结构来增强模型对幅度的表达能力。MDBF保留了DBF中共享的1比特符号基,但将单个包络替换为多个包络,每个包络对应不同的幅度分布。通过在包络分量之间共享符号矩阵,MDBF有效地利用了有限的内存预算,专注于提升幅度表达能力。

技术框架:MDBF的整体框架可以概括为以下几个步骤:1) 初始化:使用闭式解初始化MDBF的各个参数,包括符号基和多个包络。2) 交替优化:采用交替细化方法优化MDBF的参数。具体来说,固定符号基,优化包络;然后固定包络,优化符号基。重复此过程直到收敛。3) 推理:使用量化后的MDBF模型进行推理。

关键创新:MDBF最重要的技术创新点在于引入了多包络结构。与DBF的单包络结构相比,MDBF的多包络结构能够更好地捕捉模型权重的幅度分布,从而提升量化模型的精度。此外,MDBF还提出了一种闭式初始化方法和一种交替细化方法,用于优化MDBF的参数。

关键设计:MDBF的关键设计包括:1) 包络数量的选择:包络数量的选择会影响模型的表达能力和计算复杂度。论文中可能探讨了不同包络数量对模型性能的影响。2) 符号基的共享:通过在包络分量之间共享符号矩阵,MDBF有效地维护了一个二值载体,并降低了内存占用。3) 闭式初始化方法:闭式初始化方法能够为MDBF提供一个良好的初始点,加速模型的收敛。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MDBF在LLaMA和Qwen系列模型上进行了实验,结果表明,在匹配每权重比特数的情况下,MDBF显著提高了困惑度和零样本精度。具体来说,MDBF在保持相同推理原语的前提下,超越了之前的二值量化方法,证明了其在极低比特量化方面的优越性。实验结果表明,MDBF能够有效地提升量化模型的性能,使其更接近全精度模型的水平。

🎯 应用场景

MDBF适用于对计算资源和存储空间有严格限制的场景,例如移动设备、嵌入式系统等。通过极低比特量化,MDBF可以在这些平台上部署大型语言模型,实现高效的本地推理。此外,MDBF还可以应用于云计算等场景,降低模型部署和推理的成本,提高资源利用率。未来,MDBF有望推动大语言模型在更广泛的应用场景中的普及。

📄 摘要(原文)

For extreme low-bit quantization of large language models (LLMs), Double Binary Factorization (DBF) is attractive as it enables efficient inference without sacrificing accuracy. However, the scaling parameters of DBF are too restrictive; after factoring out signs, all rank components share the same magnitude profile, resulting in performance saturation. We propose Multi-envelope DBF (MDBF), which retains a shared pair of 1-bit sign bases but replaces the single envelope with a rank-$l$ envelope. By sharing sign matrices among envelope components, MDBF effectively maintains a binary carrier and utilizes the limited memory budget for magnitude expressiveness. We also introduce a closed-form initialization and an alternating refinement method to optimize MDBF. Across the LLaMA and Qwen families, MDBF enhances perplexity and zero-shot accuracy over previous binary formats at matched bits per weight while preserving the same deployment-friendly inference primitive.