FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration

作者: Daehyeon Baek, Jieun Choi, Jimyoung Son, Kyungmin Bin, Seungbeom Choi, Kihyo Moon, Minsung Jang, Hyojung Lee

分类: cs.LG

发布日期: 2025-05-27 (更新: 2025-07-18)

💡 一句话要点

FireQ：面向LLM推理加速的快速INT4-FP8内核与RoPE感知量化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 LLM推理加速 INT4-FP8量化 旋转位置嵌入 FlashAttention 异常值平滑 混合精度量化

📋 核心要点

现有LLM推理受限于内存带宽，后训练量化是加速推理的关键，但现有方法在精度和效率上存在挑战。
FireQ通过协同设计的INT4-FP8量化方案和优化的矩阵乘法内核，提升LLM推理速度并保持精度。
实验表明，FireQ在Llama2-7B和Llama3-8B上显著优于现有方法，实现了更高的推理速度和更低的延迟。

📝 摘要（中文）

随着大型语言模型日益普及，内存带宽限制显著降低了推理吞吐量，促使了后训练量化（PTQ）的发展。本文提出了FireQ，一个协同设计的PTQ框架和一个INT4-FP8矩阵乘法内核，用于加速所有线性层上的LLM推理。具体来说，FireQ将线性层权重和键-值量化为INT4，并将激活和查询量化为FP8，从而显著提高吞吐量。此外，我们为预填充阶段引入了一个三阶段流水线，该流水线修改了FlashAttention-3内核，有效地减少了预填充阶段的time-to-first-token。为了最大限度地减少量化带来的精度损失，我们开发了针对线性和注意力层分别定制的异常值平滑技术。在线性层中，我们显式地使用per-tensor缩放来防止INT4量化的FP8量化缩放因子引起的下溢，并使用通道式缩放来补偿INT4的粗粒度。在注意力层中，我们通过结合pre-RoPE和post-RoPE缩放策略来解决旋转位置嵌入（RoPE）带来的量化挑战。FireQ显著优于最先进的方法，在Llama2-7B的前馈网络层中实现了1.68倍的推理速度提升，在Llama3-8B的预填充阶段实现了1.26倍的性能提升（与QServe相比），且精度损失可忽略不计。

🔬 方法详解

问题定义：大型语言模型（LLM）的推理速度受限于内存带宽。后训练量化（PTQ）是一种有效的加速方法，但现有的PTQ方法在量化精度和推理效率之间难以取得平衡，尤其是在处理旋转位置嵌入（RoPE）时，量化误差会进一步放大，导致性能下降。

核心思路：FireQ的核心思路是协同设计量化方案和计算内核，利用INT4和FP8的混合精度量化，在保证精度的前提下，最大化推理吞吐量。针对线性层和注意力层分别设计了定制化的量化策略和异常值平滑技术，以减少量化误差。

技术框架：FireQ框架主要包含三个部分：INT4-FP8量化方案、优化的矩阵乘法内核和针对预填充阶段的三阶段流水线。INT4-FP8量化方案将权重和键-值量化为INT4，激活和查询量化为FP8。优化的矩阵乘法内核加速INT4-FP8的计算。三阶段流水线优化了FlashAttention-3内核，减少了预填充阶段的延迟。

关键创新：FireQ的关键创新在于：1) 协同设计的INT4-FP8量化方案，充分利用了INT4和FP8的优势；2) 针对线性和注意力层分别定制的异常值平滑技术，有效减少了量化误差；3) RoPE感知的量化策略，解决了RoPE带来的量化挑战；4) 优化的矩阵乘法内核和三阶段流水线，进一步提升了推理效率。与现有方法相比，FireQ在精度和效率上取得了更好的平衡。

关键设计：在线性层，FireQ使用per-tensor缩放防止FP8量化缩放因子引起的下溢，并使用通道式缩放补偿INT4的粗粒度。在注意力层，FireQ结合pre-RoPE和post-RoPE缩放策略，减少RoPE带来的量化误差。预填充阶段的三阶段流水线包括：查询和键-值计算、注意力计算和输出投影。具体参数设置和损失函数细节未在摘要中详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

FireQ在Llama2-7B的前馈网络层中实现了1.68倍的推理速度提升，在Llama3-8B的预填充阶段实现了1.26倍的性能提升（与QServe相比），且精度损失可忽略不计。这些结果表明FireQ在LLM推理加速方面具有显著优势。

🎯 应用场景

FireQ可应用于各种需要加速LLM推理的场景，例如云端推理服务、边缘设备部署等。通过提高推理吞吐量和降低延迟，FireQ可以显著提升用户体验，并降低部署成本。该研究成果对于推动LLM在实际应用中的普及具有重要意义。

📄 摘要（原文）

As large language models become increasingly prevalent, memory bandwidth constraints significantly limit inference throughput, motivating post-training quantization (PTQ). In this paper, we propose FireQ, a co-designed PTQ framework and an INT4-FP8 matrix multiplication kernel that accelerates LLM inference across all linear layers. Specifically, FireQ quantizes linear layer weights and key-values to INT4, and activations and queries to FP8, significantly enhancing throughput. Additionally, we introduce a three-stage pipelining for the prefill phase, which modifies the FlashAttention-3 kernel, effectively reducing time-to-first-token in the prefill phase. To minimize accuracy loss from quantization, we develop novel outlier smoothing techniques tailored separately for linear and attention layers. In linear layers, we explicitly use per-tensor scaling to prevent underflow caused by the FP8 quantization scaling factor of INT4 quantization, and channel-wise scaling to compensate for coarse granularity of INT4. In attention layers, we address quantization challenges posed by rotary positional embeddings (RoPE) by combining pre-RoPE and post-RoPE scaling strategies. FireQ significantly outperforms state-of-the-art methods, achieving 1.68x faster inference in feed-forward network layers on Llama2-7B and 1.26x faster prefill phase performance on Llama3-8B compared to QServe, with negligible accuracy loss.

FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理