ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

作者: Ruibo Fan, Xiangrui Yu, Xinglin Pan, Zeyu Li, Weile Luo, Qiang Wang, Wei Wang, Xiaowen Chu

分类: cs.DC, cs.AR, cs.LG, cs.PF

发布日期: 2026-03-18

备注: ASPLOS'26 Accepted Paper

💡 一句话要点

ZipServ：通过硬件感知无损压缩加速LLM推理并降低内存占用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 无损压缩 GPU推理 硬件感知 张量核心 模型优化 定长编码

📋 核心要点

现有LLM无损压缩方法与GPU架构不匹配，导致推理速度显著下降，主要体现在内核级SIMT并行性破坏和系统级冗余内存访问。
ZipServ提出张量核心感知三重位图编码（TCA-TBE）和融合解压缩-GEMM（ZipGEMM）内核，实现并行解码和片上解压计算。
实验结果表明，ZipServ在降低模型大小的同时，显著提升了LLM推理速度，优于现有方案，实现了存储节省和性能加速的双重目标。

📝 摘要（中文）

本文提出ZipServ，一个为高效LLM推理而共同设计的无损压缩框架，旨在缓解大语言模型（LLM）服务中的内存和带宽瓶颈。ZipServ引入了张量核心感知的三重位图编码（TCA-TBE），这是一种新颖的定长格式，能够实现恒定时间和并行解码。同时，ZipServ还提出了融合的解压缩-GEMM（ZipGEMM）内核，可在运行时将压缩权重直接解压到张量核心寄存器中。这种“压缩加载，解压计算”的设计消除了中间缓冲区，并最大限度地提高了计算强度。实验表明，ZipServ可将模型大小最多减少30%，相比NVIDIA的cuBLAS，内核级速度提升高达2.21倍，并且端到端推理速度平均提升1.22倍（对比vLLM）。ZipServ是首个为GPU上的LLM推理提供存储节省和显著加速的无损压缩系统。

🔬 方法详解

问题定义：现有的大语言模型（LLM）在部署时面临着巨大的内存和带宽压力。虽然无损压缩可以有效减小模型体积，但现有的无损压缩方法在GPU上进行LLM推理时，由于与GPU架构的不匹配，反而会导致推理速度显著下降。具体来说，传统熵编码产生的变长码流破坏了GPU的SIMT并行性，而解耦的解压缩和计算流程导致了冗余的内存访问。

核心思路：ZipServ的核心思路是设计一种硬件感知的无损压缩方案，使其既能有效压缩模型，又能充分利用GPU的计算能力。通过定制化的压缩格式和计算内核，实现压缩数据的快速解压缩和高效计算，从而在降低内存占用的同时，提升推理速度。

技术框架：ZipServ主要包含两个核心模块：张量核心感知的三重位图编码（TCA-TBE）和融合的解压缩-GEMM（ZipGEMM）内核。TCA-TBE负责将模型权重压缩成定长格式，以便于GPU并行解码。ZipGEMM内核则将解压缩过程与GEMM计算融合在一起，直接在张量核心上进行解压缩和计算，避免了中间数据的存储和传输。整体流程为：压缩后的模型权重被加载到GPU内存中，ZipGEMM内核从内存中读取压缩数据，在张量核心中进行解压缩，然后立即进行GEMM计算，最终得到计算结果。

关键创新：ZipServ的关键创新在于其硬件感知的压缩格式和计算内核。TCA-TBE是一种定长编码格式，可以保证GPU上所有线程同时进行解码，避免了变长码流带来的同步问题。ZipGEMM内核则将解压缩和计算融合在一起，减少了内存访问次数，提高了计算效率。这种“压缩加载，解压计算”的设计是ZipServ能够实现加速的关键。

关键设计：TCA-TBE的具体实现方式未知，但其核心思想是利用三重位图来表示权重数据，并保证编码后的数据长度固定。ZipGEMM内核则需要根据具体的GPU架构进行优化，以充分利用张量核心的计算能力。具体的参数设置和优化策略取决于具体的硬件平台和模型结构。

🖼️ 关键图片

📊 实验亮点

ZipServ在实验中表现出色，模型大小最多减少30%，相比NVIDIA的cuBLAS，内核级速度提升高达2.21倍，并且端到端推理速度平均提升1.22倍（对比vLLM）。这些结果表明，ZipServ不仅可以有效压缩模型，还能显著提升推理速度，优于现有方案。

🎯 应用场景

ZipServ可广泛应用于各种需要部署大型语言模型的场景，例如云端推理服务、边缘设备部署等。通过降低模型大小和提高推理速度，ZipServ可以显著降低部署成本，并提升用户体验。该研究对于推动LLM在资源受限环境下的应用具有重要意义，并可能促进更多高效的硬件感知压缩算法的出现。

📄 摘要（原文）

Lossless model compression holds tremendous promise for alleviating the memory and bandwidth bottlenecks in bit-exact Large Language Model (LLM) serving. However, existing approaches often result in substantial inference slowdowns due to fundamental design mismatches with GPU architectures: at the kernel level, variable-length bitstreams produced by traditional entropy codecs break SIMT parallelism; at the system level, decoupled pipelines lead to redundant memory traffic. We present ZipServ, a lossless compression framework co-designed for efficient LLM inference. ZipServ introduces Tensor-Core-Aware Triple Bitmap Encoding (TCA-TBE), a novel fixed-length format that enables constant-time, parallel decoding, together with a fused decompression-GEMM (ZipGEMM) kernel that decompresses weights on-the-fly directly into Tensor Core registers. This "load-compressed, compute-decompressed" design eliminates intermediate buffers and maximizes compute intensity. Experiments show that ZipServ reduces the model size by up to 30%, achieves up to 2.21x kernel-level speedup over NVIDIA's cuBLAS, and expedites end-to-end inference by an average of 1.22x over vLLM. ZipServ is the first lossless compression system that provides both storage savings and substantial acceleration for LLM inference on GPUs.

ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理