ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

📄 arXiv: 2603.17435v1 📥 PDF

作者: Ruibo Fan, Xiangrui Yu, Xinglin Pan, Zeyu Li, Weile Luo, Qiang Wang, Wei Wang, Xiaowen Chu

分类: cs.DC, cs.AR, cs.LG, cs.PF

发布日期: 2026-03-18

备注: ASPLOS'26 Accepted Paper


💡 一句话要点

ZipServ:通过硬件感知无损压缩加速LLM推理并降低内存占用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 无损压缩 GPU推理 硬件感知 张量核心 模型优化 定长编码

📋 核心要点

  1. 现有LLM无损压缩方法与GPU架构不匹配,导致推理速度显著下降,主要体现在内核级SIMT并行性破坏和系统级冗余内存访问。
  2. ZipServ提出张量核心感知三重位图编码(TCA-TBE)和融合解压缩-GEMM(ZipGEMM)内核,实现并行解码和片上解压计算。
  3. 实验结果表明,ZipServ在降低模型大小的同时,显著提升了LLM推理速度,优于现有方案,实现了存储节省和性能加速的双重目标。

📝 摘要(中文)

本文提出ZipServ,一个为高效LLM推理而共同设计的无损压缩框架,旨在缓解大语言模型(LLM)服务中的内存和带宽瓶颈。ZipServ引入了张量核心感知的三重位图编码(TCA-TBE),这是一种新颖的定长格式,能够实现恒定时间和并行解码。同时,ZipServ还提出了融合的解压缩-GEMM(ZipGEMM)内核,可在运行时将压缩权重直接解压到张量核心寄存器中。这种“压缩加载,解压计算”的设计消除了中间缓冲区,并最大限度地提高了计算强度。实验表明,ZipServ可将模型大小最多减少30%,相比NVIDIA的cuBLAS,内核级速度提升高达2.21倍,并且端到端推理速度平均提升1.22倍(对比vLLM)。ZipServ是首个为GPU上的LLM推理提供存储节省和显著加速的无损压缩系统。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在部署时面临着巨大的内存和带宽压力。虽然无损压缩可以有效减小模型体积,但现有的无损压缩方法在GPU上进行LLM推理时,由于与GPU架构的不匹配,反而会导致推理速度显著下降。具体来说,传统熵编码产生的变长码流破坏了GPU的SIMT并行性,而解耦的解压缩和计算流程导致了冗余的内存访问。

核心思路:ZipServ的核心思路是设计一种硬件感知的无损压缩方案,使其既能有效压缩模型,又能充分利用GPU的计算能力。通过定制化的压缩格式和计算内核,实现压缩数据的快速解压缩和高效计算,从而在降低内存占用的同时,提升推理速度。

技术框架:ZipServ主要包含两个核心模块:张量核心感知的三重位图编码(TCA-TBE)和融合的解压缩-GEMM(ZipGEMM)内核。TCA-TBE负责将模型权重压缩成定长格式,以便于GPU并行解码。ZipGEMM内核则将解压缩过程与GEMM计算融合在一起,直接在张量核心上进行解压缩和计算,避免了中间数据的存储和传输。整体流程为:压缩后的模型权重被加载到GPU内存中,ZipGEMM内核从内存中读取压缩数据,在张量核心中进行解压缩,然后立即进行GEMM计算,最终得到计算结果。

关键创新:ZipServ的关键创新在于其硬件感知的压缩格式和计算内核。TCA-TBE是一种定长编码格式,可以保证GPU上所有线程同时进行解码,避免了变长码流带来的同步问题。ZipGEMM内核则将解压缩和计算融合在一起,减少了内存访问次数,提高了计算效率。这种“压缩加载,解压计算”的设计是ZipServ能够实现加速的关键。

关键设计:TCA-TBE的具体实现方式未知,但其核心思想是利用三重位图来表示权重数据,并保证编码后的数据长度固定。ZipGEMM内核则需要根据具体的GPU架构进行优化,以充分利用张量核心的计算能力。具体的参数设置和优化策略取决于具体的硬件平台和模型结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ZipServ在实验中表现出色,模型大小最多减少30%,相比NVIDIA的cuBLAS,内核级速度提升高达2.21倍,并且端到端推理速度平均提升1.22倍(对比vLLM)。这些结果表明,ZipServ不仅可以有效压缩模型,还能显著提升推理速度,优于现有方案。

🎯 应用场景

ZipServ可广泛应用于各种需要部署大型语言模型的场景,例如云端推理服务、边缘设备部署等。通过降低模型大小和提高推理速度,ZipServ可以显著降低部署成本,并提升用户体验。该研究对于推动LLM在资源受限环境下的应用具有重要意义,并可能促进更多高效的硬件感知压缩算法的出现。

📄 摘要(原文)

Lossless model compression holds tremendous promise for alleviating the memory and bandwidth bottlenecks in bit-exact Large Language Model (LLM) serving. However, existing approaches often result in substantial inference slowdowns due to fundamental design mismatches with GPU architectures: at the kernel level, variable-length bitstreams produced by traditional entropy codecs break SIMT parallelism; at the system level, decoupled pipelines lead to redundant memory traffic. We present ZipServ, a lossless compression framework co-designed for efficient LLM inference. ZipServ introduces Tensor-Core-Aware Triple Bitmap Encoding (TCA-TBE), a novel fixed-length format that enables constant-time, parallel decoding, together with a fused decompression-GEMM (ZipGEMM) kernel that decompresses weights on-the-fly directly into Tensor Core registers. This "load-compressed, compute-decompressed" design eliminates intermediate buffers and maximizes compute intensity. Experiments show that ZipServ reduces the model size by up to 30%, achieves up to 2.21x kernel-level speedup over NVIDIA's cuBLAS, and expedites end-to-end inference by an average of 1.22x over vLLM. ZipServ is the first lossless compression system that provides both storage savings and substantial acceleration for LLM inference on GPUs.