Lossless Compression of Neural Network Components: Weights, Checkpoints, and K/V Caches in Low-Precision Formats

📄 arXiv: 2508.19263v1 📥 PDF

作者: Anat Heilper, Doron Singer

分类: cs.LG, cs.AI, cs.NE

发布日期: 2025-08-20

备注: 16 pages 9 images


💡 一句话要点

提出低精度格式神经网络组件无损压缩方法以降低存储成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无损压缩 低精度格式 神经网络 熵编码 存储优化 深度学习模型 模型传输 高效推理

📋 核心要点

  1. 现有方法主要针对高精度格式,导致低精度格式的压缩效果未被充分探索。
  2. 本文提出了一种新方法,通过独立压缩指数和尾数,针对低精度格式进行优化。
  3. 实验结果表明,BF16和FP8的压缩比显著提高,分别达到62%和83%。

📝 摘要(中文)

随着深度学习模型的不断发展和广泛应用,减少神经网络权重的存储和传输成本变得愈发重要。尽管以往的研究如ZipNN展示了基于霍夫曼编码浮点指数的无损压缩方法能够显著减小模型大小,但这些技术主要应用于FP32和BF16等高精度格式。本文将ZipNN方法扩展至FP8和FP4等低精度浮点格式,这些格式在高效推理中日益受到欢迎。我们设计了一种压缩方法,独立地对指数和尾数组件进行分离和压缩,采用熵编码。评估结果显示,BF16的压缩比高达62%,FP8则达到83%。此外,我们还研究了大型语言模型中使用的键值(K/V)缓存张量的可压缩性,发现其也表现出可压缩模式,从而在部署过程中实现内存节省。

🔬 方法详解

问题定义:本文旨在解决低精度格式神经网络组件的存储和传输成本高的问题。现有的无损压缩方法主要集中在高精度格式,未能有效利用低精度格式的潜力。

核心思路:论文提出的核心思路是将神经网络权重的指数和尾数分开进行压缩,利用熵编码技术提高压缩效率。这种设计能够更好地适应低精度格式的特性,从而实现更高的压缩比。

技术框架:整体架构包括数据预处理、指数和尾数的分离、熵编码压缩和解压缩模块。首先对权重进行预处理,然后分别对指数和尾数进行压缩,最后在需要时进行解压缩以恢复原始数据。

关键创新:最重要的技术创新点在于将压缩过程细分为对指数和尾数的独立处理,这与现有方法的整体压缩方式形成了鲜明对比,显著提高了低精度格式的压缩效果。

关键设计:在参数设置上,采用了适合低精度格式的熵编码算法,并在损失函数中考虑了压缩比与恢复精度之间的平衡。网络结构方面,设计了适应FP8和FP4格式的特定压缩模块。

📊 实验亮点

实验结果显示,针对BF16格式的压缩比高达62%,而FP8格式的压缩比更是达到83%。这些结果表明,本文提出的方法在降低存储成本方面具有显著优势,尤其是在大型语言模型的应用场景中,能够有效节省内存资源。

🎯 应用场景

该研究的潜在应用领域包括深度学习模型的存储优化、云计算服务中的模型传输以及边缘设备上的高效推理。通过降低模型的存储和传输成本,能够促进深度学习技术在资源受限环境中的广泛应用,提升整体系统的效率和性能。

📄 摘要(原文)

As deep learning models grow and deployment becomes more widespread, reducing the storage and transmission costs of neural network weights has become increasingly important. While prior work such as ZipNN has shown that lossless compression methods - particularly those based on Huffman encoding floating-point exponents can significantly reduce model sizes, these techniques have primarily been applied to higher-precision formats such as FP32 and BF16. In this work, we extend the ZipNN approach to lower-precision floating-point formats, specifically FP8 and FP4, which are gaining popularity for efficient inference. We design a compression method that separates and compresses the exponent and mantissa components independently using entropy coding. Our evaluation shows compression ratios up to 62% for BF16 and 83% for FP8. We also investigate the compressibility of key-value (K/V) cache tensors used in large language models (LLMs), finding that they, too, exhibit compressible patterns, enabling memory savings during deployment.