A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models

作者: Earl Killian

分类: cs.LG, cs.AR

发布日期: 2026-05-14

备注: 21 pages

💡 一句话要点

提出一种硬件感知的逐层量化方法SOP，用于大语言模型的后训练量化。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大语言模型 低比特量化 硬件感知 LUT解码

📋 核心要点

现有大语言模型量化方法在低比特下精度损失较大，且未充分考虑硬件特性。
SOP方法通过逐层码本搜索、块缩放和敏感层提升等技术，优化量化精度。
实验表明，SOP在更低比特下实现了比传统FP8更好的权重重建误差，降低了存储成本。

📝 摘要（中文）

本文提出了一种名为Scaled Outer Product (SOP) 的后训练量化方法，专门针对大语言模型权重设计。该方法旨在以每权重4.5-6比特的低精度，在具有逐层LUT解码的硬件上实现接近无损的精度。SOP结合了逐层搜索的固定和动态码本对（通过逐块选择位选择）、带符号的逐块尺度、激活加权余弦选择，以及通过多重选择背包算法提升敏感层，并进行异常值和稀疏残差校正。固定码本包括NF4、BOF4、Split87和SH4；逐层优化的码本（DD4）存储在LUT SRAM中。此外，本文还提出了一种新的硬件高效LUT输出格式（HIF），以提高性能、能效和降低成本。在六个开放模型系列中，推荐的FP6操作点（E2M3sUE4M4，6.5 bpw）实现了比传统逐层POT FP8基线（E4M3，8.0 bpw）更低的权重重建误差，证明了具有精心选择的尺度精度的块缩放小原子可以替代传统部署的FP8。完整的4.5-6 bpw范围内的评估，包括层提升和稀疏残差校正，将在配套论文中报告。

🔬 方法详解

问题定义：大语言模型体积庞大，部署成本高昂。后训练量化是一种降低模型大小和计算复杂度的有效方法，但现有方法在极低比特（如4-6比特）下量化时，精度损失显著。此外，现有方法通常忽略了硬件特性，未能充分利用硬件加速能力。

核心思路：SOP的核心思路是结合多种量化技术，针对不同层和块的特性进行优化，从而在极低比特下实现接近无损的量化精度。同时，SOP充分考虑了硬件特性，设计了硬件友好的LUT输出格式，以提高性能和能效。

技术框架：SOP方法主要包含以下几个阶段：1) 逐层码本搜索：针对每一层，搜索最佳的固定和动态码本对。2) 逐块选择：使用逐块选择位，选择固定或动态码本。3) 块缩放：使用带符号的逐块尺度，对量化后的权重进行缩放。4) 激活加权余弦选择：使用激活加权余弦相似度，选择最佳的码本。5) 敏感层提升：使用多重选择背包算法，提升敏感层的量化精度。6) 异常值和稀疏残差校正：对异常值和稀疏残差进行校正，进一步提高量化精度。

关键创新：SOP的关键创新在于：1) 结合了多种量化技术，针对不同层和块的特性进行优化。2) 提出了硬件高效的LUT输出格式（HIF），以提高性能和能效。3) 通过多重选择背包算法，自动识别并提升敏感层的量化精度。

关键设计：SOP的关键设计包括：1) 固定码本的选择：选择了NF4、BOF4、Split87和SH4等常用的固定码本。2) 动态码本的设计：设计了逐层优化的动态码本（DD4），并存储在LUT SRAM中。3) 尺度精度的选择：精心选择了尺度精度，以在精度和存储成本之间取得平衡。4) 硬件高效LUT输出格式（HIF）：设计了一种新的LUT输出格式，以提高性能、能效和降低成本。

📊 实验亮点

实验结果表明，SOP方法在6.5 bpw (E2M3sUE4M4) 下实现了比传统FP8 (E4M3, 8.0 bpw) 更低的权重重建误差，同时降低了1.5 bpw的存储成本。这证明了SOP方法在极低比特量化方面的优越性，为大语言模型的低成本部署提供了新的解决方案。

🎯 应用场景

该研究成果可应用于大语言模型的低成本部署，例如在资源受限的边缘设备上运行大型模型，或降低云端推理的成本。此外，该方法还可以促进大语言模型在移动设备、嵌入式系统等领域的应用，加速人工智能技术的普及。

📄 摘要（原文）

Scaled Outer Product (SOP) is a post-training quantization methodology for large language model weights, designed to deliver near-lossless fidelity at 4.5--6 bits per weight on hardware with per-layer LUT decode. The methodology combines per-layer search of fixed and dynamic codebook pairs selected by a per-block selection bit, signed per-block scales, activation-weighted cosine selection, and multiple-choice knapsack promotion of sensitive layers with outlier and sparse-residual correction. Fixed codebooks include NF4, BOF4, Split87, and SH4; per-layer optimized codebooks (DD4) are hosted in LUT SRAM. A new hardware-efficient LUT output format (HIF) is proposed to improve performance, energy, and cost. Across six open model families, the recommended FP6 operating point (E2M3sUE4M4, 6.5 bpw) achieves lower weight reconstruction error than the conventional per-layer-POT FP8 baseline (E4M3, 8.0 bpw) at 1.5 bpw lower storage cost, demonstrating that block-scaled small atoms with carefully chosen scale precision can replace conventionally-deployed FP8. Full evaluation across the 4.5--6 bpw range, including layer promotion and sparse residual correction, is reported in a companion paper.

A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理