ENEC: A Lossless AI Model Compression Method Enabling Fast Inference on Ascend NPUs

📄 arXiv: 2604.03298 📥 PDF

作者: Jinwu Yang, Jiaan Wu, Zedong Liu, Xinyang Ma, Hairui Zhao, Yida Gu, Yuanhong Huang, Xingchen Liu, Wenjing Huang, Zheng Wei, Jing Xing, Yili Ma, Qingyi Zhang, Baoyi An, Zhongzhe Hu, Shaoteng Liu, Xia Zhu, Jiaxun Lu, Guangming Tan, Dingwen Tao

分类: cs.AR, cs.DC, cs.LG

发布日期: 2026-04-07


💡 一句话要点

ENEC:一种用于昇腾NPU的AI模型无损压缩加速推理方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无损压缩 模型压缩 昇腾NPU AI加速 推理优化

📋 核心要点

  1. 现有无损压缩算法在昇腾NPU上的吞吐量极低,无法满足大模型部署需求,权重数据传输成为性能瓶颈。
  2. ENEC采用块状固定长度编码,并针对昇腾NPU架构进行优化,包括位宽量化、矢量化整数变换等。
  3. 实验表明,ENEC在压缩比和吞吐量上优于现有NPU压缩器,并显著提升了端到端推理性能,最高加速6.3倍。

📝 摘要(中文)

大型语言模型的快速扩展给部署和推理带来了重大挑战,尤其是在资源受限的专用AI硬件加速器(如华为昇腾NPU)上,权重数据传输已成为关键的性能瓶颈。虽然无损压缩可以保持模型精度并减少数据量,但现有的无损压缩算法在移植到昇腾NPU架构时表现出极低的吞吐量。本文提出了一种名为ENEC的新型无损压缩方法,专门为AI模型权重定制并针对昇腾神经处理单元进行了优化。ENEC采用基于块的固定长度编码方案,并结合了一系列NPU特定的优化:具有分层半位打包的位宽量化、矢量化无分支整数变换以及用于高效前缀和计算的依赖解耦段内扫描。实验结果表明,ENEC在压缩比和吞吐量方面均优于现有的最先进的NPU压缩器。与领先的GPU解决方案相比,ENEC实现了比DietGPU高3.43倍的吞吐量和比nvCOMP好1.12倍的压缩比。通过减少权重传输开销,ENEC显著提高了端到端推理性能,实现了高达6.3倍的加速。在昇腾NPU上,ENEC是第一个开源的用于模型权重的无损压缩算法,其性能可与最先进的GPU压缩器相媲美,为部署大规模AI模型提供了一种有效的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型AI模型在华为昇腾NPU等资源受限的硬件上部署时,模型权重数据传输带来的性能瓶颈问题。现有的无损压缩算法在昇腾NPU上的吞吐量较低,无法有效降低传输开销,限制了推理速度。

核心思路:论文的核心思路是设计一种专门针对AI模型权重数据特性,并充分利用昇腾NPU硬件架构特点进行优化的无损压缩算法。通过定制化的编码方案和硬件加速技术,提高压缩和解压缩的效率,从而减少权重数据传输时间。

技术框架:ENEC的技术框架主要包括以下几个阶段:1) 分块:将模型权重数据划分为固定大小的块。2) 位宽量化:对每个块的数据进行位宽量化,减少数据表示的位数。3) 位打包:将量化后的数据进行位打包,进一步压缩数据。4) 整数变换:应用矢量化的无分支整数变换,提高压缩效率。5) 前缀和计算:采用依赖解耦的段内扫描,高效计算前缀和。

关键创新:ENEC的关键创新在于其针对昇腾NPU架构的定制化优化。具体包括:1) 分层半位打包:根据数据的分布特性,采用分层的位打包策略,提高压缩比。2) 矢量化无分支整数变换:利用NPU的矢量化计算能力,加速整数变换过程,避免分支操作带来的性能损失。3) 依赖解耦段内扫描:优化前缀和计算,减少数据依赖,提高并行度。

关键设计:ENEC的关键设计包括:1) 块大小的选择:需要根据模型权重数据的特性和NPU的硬件资源进行权衡。2) 位宽量化策略:需要根据数据的分布范围和精度要求选择合适的量化位数。3) 整数变换函数的选择:需要选择能够有效去除数据冗余,并且易于硬件加速的变换函数。4) 前缀和计算的并行化策略:需要根据NPU的并行计算能力,设计高效的并行计算方案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ENEC在昇腾NPU上实现了显著的性能提升。与领先的GPU解决方案相比,ENEC实现了比DietGPU高3.43倍的吞吐量和比nvCOMP好1.12倍的压缩比。端到端推理性能提升高达6.3倍。ENEC是首个在昇腾NPU上实现与最先进GPU压缩器性能相媲美的开源无损压缩算法。

🎯 应用场景

ENEC可广泛应用于各种需要部署大型AI模型的场景,例如边缘计算、自动驾驶、智能机器人等。通过降低模型权重传输开销,ENEC能够显著提升推理速度,降低功耗,并减少对硬件资源的需求,从而加速AI技术的落地和应用。

📄 摘要(原文)

The rapid scaling of Large Language Models presents significant challenges for their deployment and inference, particularly on resource-constrained specialized AI hardware accelerators such as Huawei's Ascend NPUs, where weight data transfer has become a critical performance bottleneck. While lossless compression can preserve model accuracy and reduce data volume, existing lossless compression algorithms exhibit extremely low throughput when ported to the Ascend NPU architecture. In this paper, we propose ENEC, a novel lossless compression method specifically customized for AI model weights and optimized for Ascend Neural Processing Units. ENEC adopts a block-based fixed-length encoding scheme and incorporates a series of NPU-specific optimizations: bit-width quantization with hierarchical halving bit-packing, vectorized branch-free integer transformation, and dependency-decoupled intra-segment scan for efficient prefix-sum computation. Experimental results demonstrate that ENEC outperforms existing state-of-the-art NPU compressors in both compression ratio and throughput. Compared to leading GPU solutions, ENEC achieves a 3.43X higher throughput than DietGPU and a 1.12X better compression ratio than nvCOMP. By reducing weight transmission overhead, ENEC significantly improves end-to-end inference performance, achieving up to a 6.3X speedup. On Ascend NPUs, ENEC is the first open-source lossless compression algorithm for model weights that achieves performance comparable to state-of-the-art GPU compressors, offering an effective solution for deploying large-scale AI models.