Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity
作者: Dongyun Kam, Myeongji Yun, Sunwoo Yoo, Seungwoo Hong, Zhengya Zhang, Youngjoo Lee
分类: cs.AR, cs.AI
发布日期: 2024-12-13
备注: 15 pages, 20 figures, Accepted to HPCA 2025
💡 一句话要点
Panacea:基于精度保持的非对称量化和节能位片稀疏性的新型DNN加速器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: DNN加速器 非对称量化 位片稀疏性 算法硬件协同优化 低功耗设计
📋 核心要点
- 现有对称量化方法在处理激活值不对称分布时存在精度损失,尤其是在大规模DNN中。
- 论文提出AQS-GEMM,通过压缩和跳过非对称量化产生的频繁非零切片,提高硬件效率。
- 通过零点操作和基于分布的位切片,增加激活的切片级稀疏性,并设计了专用加速器Panacea。
📝 摘要(中文)
为了加速大规模深度神经网络(DNN)推理过程中的通用矩阵乘法(GEMM),研究人员开始关注低比特精度及其位片稀疏性。传统的对称量化虽然便于低分辨率处理和位片稀疏性,但激活的不对称分布会导致精度损失,这在大规模DNN中是不可接受的。为了缓解这种精度损失,最近的研究积极采用非对称量化处理激活,而无需额外的操作。然而,最先进的非对称量化会产生大量无法被压缩和跳过的非零切片,导致处理量化DNN模型时消耗更多的能量。为了同时实现大规模DNN推理的高精度和硬件效率,本文首次提出了一种用于非对称量化的位片GEMM(AQS-GEMM)。与以往仅跳过零切片操作的位片计算不同,AQS-GEMM压缩了非对称量化产生的频繁非零切片,并跳过其操作。为了提高激活的切片级稀疏性,我们还引入了两种算法-硬件协同优化方法:零点操作和基于分布的位切片。为了在硬件层面支持所提出的AQS-GEMM和优化,我们新推出了一种DNN加速器Panacea,它可以有效地处理平铺AQS-GEMM的稀疏/密集工作负载,从而提高数据重用率和利用率。Panacea支持专门的数据流和游程编码,以最大限度地提高数据重用率并最大限度地减少外部存储器访问,从而显著提高其硬件效率。基准评估表明,Panacea优于现有的DNN加速器。
🔬 方法详解
问题定义:现有DNN加速器在处理非对称量化后的模型时,由于激活值分布的不对称性,会产生大量非零位片,导致无法有效利用位片稀疏性进行加速,从而增加了计算量和能量消耗。对称量化虽然可以利用位片稀疏性,但精度损失较大。
核心思路:论文的核心思路是设计一种新的位片GEMM(AQS-GEMM)方法,该方法能够压缩和跳过非对称量化产生的频繁非零位片,从而在保持精度的同时,提高硬件效率。此外,通过算法-硬件协同优化,进一步提高激活的切片级稀疏性。
技术框架:Panacea加速器采用平铺AQS-GEMM架构,包含以下主要模块:数据预处理模块(零点操作、位切片),AQS-GEMM计算单元,数据压缩模块(游程编码),以及片上存储和数据流控制单元。数据首先经过预处理,然后送入AQS-GEMM计算单元进行计算,计算结果经过压缩后存储在片上存储器中,并通过专门的数据流控制单元进行数据调度。
关键创新:论文的关键创新在于:1) 提出了AQS-GEMM,能够有效处理非对称量化后的模型,并利用非零位片的压缩和跳过进行加速。2) 提出了零点操作和基于分布的位切片两种算法-硬件协同优化方法,进一步提高激活的切片级稀疏性。3) 设计了Panacea加速器,能够高效支持AQS-GEMM和提出的优化方法。与现有方法相比,Panacea能够更好地平衡精度和硬件效率。
关键设计:零点操作通过调整激活值的零点,使其分布更加集中,从而提高位片稀疏性。基于分布的位切片则根据激活值的分布情况,动态调整位切片的划分方式,以最大化稀疏性。Panacea加速器采用专门的数据流和游程编码,以最大限度地提高数据重用率并最大限度地减少外部存储器访问。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Panacea加速器在多种DNN模型上均优于现有的DNN加速器。具体性能数据和对比基线在论文中给出,展示了Panacea在性能和能效方面的显著提升。
🎯 应用场景
该研究成果可应用于各种需要高性能和低功耗的深度学习推理场景,例如边缘计算设备、移动设备和数据中心。通过提高DNN模型的推理速度和能效,可以支持更复杂的AI应用,并降低部署成本。
📄 摘要(原文)
Low bit-precisions and their bit-slice sparsity have recently been studied to accelerate general matrix-multiplications (GEMM) during large-scale deep neural network (DNN) inferences. While the conventional symmetric quantization facilitates low-resolution processing with bit-slice sparsity for both weight and activation, its accuracy loss caused by the activation's asymmetric distributions cannot be acceptable, especially for large-scale DNNs. In efforts to mitigate this accuracy loss, recent studies have actively utilized asymmetric quantization for activations without requiring additional operations. However, the cutting-edge asymmetric quantization produces numerous nonzero slices that cannot be compressed and skipped by recent bit-slice GEMM accelerators, naturally consuming more processing energy to handle the quantized DNN models. To simultaneously achieve high accuracy and hardware efficiency for large-scale DNN inferences, this paper proposes an Asymmetrically-Quantized bit-Slice GEMM (AQS-GEMM) for the first time. In contrast to the previous bit-slice computing, which only skips operations of zero slices, the AQS-GEMM compresses frequent nonzero slices, generated by asymmetric quantization, and skips their operations. To increase the slice-level sparsity of activations, we also introduce two algorithm-hardware co-optimization methods: a zero-point manipulation and a distribution-based bit-slicing. To support the proposed AQS-GEMM and optimizations at the hardware-level, we newly introduce a DNN accelerator, Panacea, which efficiently handles sparse/dense workloads of the tiled AQS-GEMM to increase data reuse and utilization. Panacea supports a specialized dataflow and run-length encoding to maximize data reuse and minimize external memory accesses, significantly improving its hardware efficiency. Our benchmark evaluations show Panacea outperforms existing DNN accelerators.