Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity

作者: Dongyun Kam, Myeongji Yun, Sunwoo Yoo, Seungwoo Hong, Zhengya Zhang, Youngjoo Lee

分类: cs.AR, cs.AI

发布日期: 2024-12-13

备注: 15 pages, 20 figures, Accepted to HPCA 2025

💡 一句话要点

Panacea：基于精度保持的非对称量化和节能位片稀疏性的新型DNN加速器

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: DNN加速器 非对称量化 位片稀疏性 算法硬件协同优化 低功耗设计

📋 核心要点

现有对称量化方法在处理激活值不对称分布时存在精度损失，尤其是在大规模DNN中。
论文提出AQS-GEMM，通过压缩和跳过非对称量化产生的频繁非零切片，提高硬件效率。
通过零点操作和基于分布的位切片，增加激活的切片级稀疏性，并设计了专用加速器Panacea。

📝 摘要（中文）

为了加速大规模深度神经网络（DNN）推理过程中的通用矩阵乘法（GEMM），研究人员开始关注低比特精度及其位片稀疏性。传统的对称量化虽然便于低分辨率处理和位片稀疏性，但激活的不对称分布会导致精度损失，这在大规模DNN中是不可接受的。为了缓解这种精度损失，最近的研究积极采用非对称量化处理激活，而无需额外的操作。然而，最先进的非对称量化会产生大量无法被压缩和跳过的非零切片，导致处理量化DNN模型时消耗更多的能量。为了同时实现大规模DNN推理的高精度和硬件效率，本文首次提出了一种用于非对称量化的位片GEMM（AQS-GEMM）。与以往仅跳过零切片操作的位片计算不同，AQS-GEMM压缩了非对称量化产生的频繁非零切片，并跳过其操作。为了提高激活的切片级稀疏性，我们还引入了两种算法-硬件协同优化方法：零点操作和基于分布的位切片。为了在硬件层面支持所提出的AQS-GEMM和优化，我们新推出了一种DNN加速器Panacea，它可以有效地处理平铺AQS-GEMM的稀疏/密集工作负载，从而提高数据重用率和利用率。Panacea支持专门的数据流和游程编码，以最大限度地提高数据重用率并最大限度地减少外部存储器访问，从而显著提高其硬件效率。基准评估表明，Panacea优于现有的DNN加速器。

🔬 方法详解

问题定义：现有DNN加速器在处理非对称量化后的模型时，由于激活值分布的不对称性，会产生大量非零位片，导致无法有效利用位片稀疏性进行加速，从而增加了计算量和能量消耗。对称量化虽然可以利用位片稀疏性，但精度损失较大。

核心思路：论文的核心思路是设计一种新的位片GEMM（AQS-GEMM）方法，该方法能够压缩和跳过非对称量化产生的频繁非零位片，从而在保持精度的同时，提高硬件效率。此外，通过算法-硬件协同优化，进一步提高激活的切片级稀疏性。

技术框架：Panacea加速器采用平铺AQS-GEMM架构，包含以下主要模块：数据预处理模块（零点操作、位切片），AQS-GEMM计算单元，数据压缩模块（游程编码），以及片上存储和数据流控制单元。数据首先经过预处理，然后送入AQS-GEMM计算单元进行计算，计算结果经过压缩后存储在片上存储器中，并通过专门的数据流控制单元进行数据调度。

关键创新：论文的关键创新在于：1) 提出了AQS-GEMM，能够有效处理非对称量化后的模型，并利用非零位片的压缩和跳过进行加速。2) 提出了零点操作和基于分布的位切片两种算法-硬件协同优化方法，进一步提高激活的切片级稀疏性。3) 设计了Panacea加速器，能够高效支持AQS-GEMM和提出的优化方法。与现有方法相比，Panacea能够更好地平衡精度和硬件效率。

关键设计：零点操作通过调整激活值的零点，使其分布更加集中，从而提高位片稀疏性。基于分布的位切片则根据激活值的分布情况，动态调整位切片的划分方式，以最大化稀疏性。Panacea加速器采用专门的数据流和游程编码，以最大限度地提高数据重用率并最大限度地减少外部存储器访问。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Panacea加速器在多种DNN模型上均优于现有的DNN加速器。具体性能数据和对比基线在论文中给出，展示了Panacea在性能和能效方面的显著提升。

🎯 应用场景

该研究成果可应用于各种需要高性能和低功耗的深度学习推理场景，例如边缘计算设备、移动设备和数据中心。通过提高DNN模型的推理速度和能效，可以支持更复杂的AI应用，并降低部署成本。

📄 摘要（原文）

Low bit-precisions and their bit-slice sparsity have recently been studied to accelerate general matrix-multiplications (GEMM) during large-scale deep neural network (DNN) inferences. While the conventional symmetric quantization facilitates low-resolution processing with bit-slice sparsity for both weight and activation, its accuracy loss caused by the activation's asymmetric distributions cannot be acceptable, especially for large-scale DNNs. In efforts to mitigate this accuracy loss, recent studies have actively utilized asymmetric quantization for activations without requiring additional operations. However, the cutting-edge asymmetric quantization produces numerous nonzero slices that cannot be compressed and skipped by recent bit-slice GEMM accelerators, naturally consuming more processing energy to handle the quantized DNN models. To simultaneously achieve high accuracy and hardware efficiency for large-scale DNN inferences, this paper proposes an Asymmetrically-Quantized bit-Slice GEMM (AQS-GEMM) for the first time. In contrast to the previous bit-slice computing, which only skips operations of zero slices, the AQS-GEMM compresses frequent nonzero slices, generated by asymmetric quantization, and skips their operations. To increase the slice-level sparsity of activations, we also introduce two algorithm-hardware co-optimization methods: a zero-point manipulation and a distribution-based bit-slicing. To support the proposed AQS-GEMM and optimizations at the hardware-level, we newly introduce a DNN accelerator, Panacea, which efficiently handles sparse/dense workloads of the tiled AQS-GEMM to increase data reuse and utilization. Panacea supports a specialized dataflow and run-length encoding to maximize data reuse and minimize external memory accesses, significantly improving its hardware efficiency. Our benchmark evaluations show Panacea outperforms existing DNN accelerators.

Panacea: Novel DNN Accelerator using Accuracy-Preserving Asymmetric Quantization and Energy-Saving Bit-Slice Sparsity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理