ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing

📄 arXiv: 2603.27914v1 📥 PDF

作者: Edward J. Yoon

分类: cs.LG, cs.AI, cs.DC

发布日期: 2026-03-30

备注: 12 pages, 4 figures, 3 tables


💡 一句话要点

提出ITQ3_S以解决大语言模型高保真推理问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 三元量化 大语言模型 高保真推理 快速沃尔什-哈达玛变换 消费级硬件

📋 核心要点

  1. 现有的3位量化方法在处理重尾权重分布和通道间异常值时,面临严重的精度损失问题。
  2. ITQ3_S通过在量化前对权重空间进行旋转,利用FWHT实现了更均匀的权重分布,从而提高了量化精度。
  3. 在NVIDIA RTX 5090上,ITQ3_S的困惑度与FP16基线相当,且吞吐量超过4位方案的1.5倍,显示出显著的性能提升。

📝 摘要(中文)

我们提出了ITQ3_S(交错三元量化-专用),一种新颖的3位权重量化格式,旨在提高大语言模型(LLMs)的推理精度。ITQ3_S结合了基于快速沃尔什-哈达玛变换(FWHT)的旋转域自适应量化策略TurboQuant(TQ)。传统的3位量化方法因重尾权重分布和通道间异常值而导致严重的精度损失。ITQ3_S通过在量化前利用FWHT对权重空间进行预旋转,有效地将异常值能量分散到整个向量中,从而诱导出接近高斯分布的均匀三元编码。我们还推导出了一种数学严谨的去量化过程,确保离线量化与在线推理之间的零误差往返保真度。实验结果表明,ITQ3_S在NVIDIA RTX 5090上实现的困惑度与FP16基线相当,同时吞吐量超过4位替代方案的1.5倍,展示了其在消费级硬件上高保真LLM部署的实用性。

🔬 方法详解

问题定义:论文旨在解决传统3位量化方法在处理大语言模型时,由于重尾权重分布和通道间异常值导致的精度损失问题。

核心思路:ITQ3_S的核心思路是通过在量化前利用快速沃尔什-哈达玛变换(FWHT)对权重空间进行预旋转,从而有效分散异常值能量,诱导出接近高斯分布的权重分布,适合均匀三元编码。

技术框架:整体流程包括权重的预旋转、量化、去量化及推理阶段。预旋转通过FWHT实现,去量化则使用256点逆沃尔什-哈达玛变换,确保零误差的保真度。

关键创新:最重要的创新点在于提出了一种数学严谨的去量化过程,确保了离线量化与在线推理之间的零误差回传,超越了传统3位量化方法的精度限制。

关键设计:在设计中,量化网格的选择直接影响到重构精度,论文中提出的ε_q参数设置确保了在相同比特预算下,ITQ3_S的重构精度优于任何均匀3位基线。

📊 实验亮点

实验结果显示,ITQ3_S在NVIDIA RTX 5090上实现的困惑度与FP16基线相当,同时吞吐量超过4位替代方案的1.5倍,展示了其在高效推理方面的显著优势,验证了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等大语言模型的高效部署。ITQ3_S的高保真推理能力使其在消费级硬件上实现复杂模型的实时推理成为可能,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

We present \textbf{ITQ3_S} (Interleaved Ternary Quantization -- Specialized), a novel 3-bit weight quantization format for large language models (LLMs) that integrates \textbf{TurboQuant (TQ)}, a rotation-domain adaptive quantization strategy based on the Fast Walsh-Hadamard Transform (FWHT). Conventional 3-bit quantization methods suffer from catastrophic precision loss caused by heavy-tailed weight distributions and inter-channel outliers. ITQ3_S addresses this fundamental limitation by pre-rotating the weight space via FWHT prior to quantization, effectively spreading outlier energy across the entire vector and inducing a near-Gaussian distribution amenable to uniform ternary coding. Critically, we derive a mathematically rigorous dequantization procedure that inverts the FWHT exactly using a 256-point Inverse Walsh-Hadamard Transform fused into the CUDA shared-memory loading stage, ensuring zero-error round-trip fidelity between offline quantization and online inference. We prove that for any weight vector $\mathbf{w} \in \mathbb{R}^{256}$ processed by our pipeline, the reconstruction satisfies $\|\hat{\mathbf{w}} - \mathbf{w}\|_2 \leq ε_q$, where $ε_q$ is determined solely by the ternary quantization grid and is strictly smaller than any uniform 3-bit baseline under equal bit-budget constraints. Empirically, on the NVIDIA RTX 5090 (Blackwell architecture), ITQ3_S achieves perplexity competitive with FP16 baselines while delivering throughput exceeding 1.5$\times$ that of 4-bit alternatives, owing to optimized DP4A and Tensor Core scheduling in the interleaved memory layout. Our results establish ITQ3_S as a practical, mathematically grounded solution for high-fidelity LLM deployment on consumer-grade hardware.