APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design

作者: Yonghao Tan, Pingcheng Dong, Yongkun Wu, Yu Liu, Xuejiao Liu, Peng Luo, Shih-Yang Liu, Xijie Huang, Dong Zhang, Luhong Liang, Kwang-Ting Cheng

分类: cs.AR, cs.AI

发布日期: 2025-04-10

备注: 62nd ACM/IEEE Design Automation Conference (DAC) 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出APSQ：一种算法-硬件协同设计的加性部分和量化方法，降低DNN加速器功耗

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 部分和量化 DNN加速器 低功耗设计 算法硬件协同设计 模型压缩

📋 核心要点

现有DNN加速器设计中，高精度部分和（PSUM）的频繁访问导致内存需求过高，成为性能瓶颈。
APSQ方法将PSUM累积集成到量化框架中，并结合分组策略和可重构架构，实现高效的PSUM压缩。
实验结果表明，APSQ在多种模型和任务上实现了显著的能耗降低，并具有应用于大语言模型的潜力。

📝 摘要（中文）

深度神经网络（DNN）加速器通过模型压缩和专用数据流技术取得了显著进展。然而，频繁访问高精度部分和（PSUM）导致输入/权重静止数据流架构中过度的内存需求。传统的压缩策略通常忽略了PSUM量化，而这可能占总功耗的69%。本研究提出了一种新的加性部分和量化（APSQ）方法，将PSUM累积无缝集成到量化框架中。进一步提出了一种分组策略，将APSQ与PSUM量化相结合，并通过可重构架构进行增强。APSQ在BERT、Segformer和EfficientViT等NLP和CV任务上实现了近乎无损的INT8 PSUM压缩，从而显著降低了28-87%的能量成本。在LLaMA2-7B上的扩展实验证明了APSQ在大语言模型中的潜力。代码已在https://github.com/Yonghao-Tan/APSQ上提供。

🔬 方法详解

问题定义：论文旨在解决DNN加速器中，由于频繁访问高精度部分和（PSUM）而导致的内存需求过高和功耗问题。现有方法通常忽略PSUM的量化，或者量化效果不佳，导致功耗优化空间受限。PSUM的存储和访问占用了大量的能量，尤其是在输入/权重静止的数据流架构中。

核心思路：论文的核心思路是将PSUM的累积过程与量化过程相结合，提出一种加性部分和量化（APSQ）方法。通过在累积过程中逐步量化，降低PSUM的精度，从而减少内存需求和功耗。同时，采用分组策略和可重构架构，进一步优化量化效果和硬件效率。

技术框架：APSQ方法主要包含以下几个阶段：1）PSUM累积：按照数据流顺序进行PSUM的累积计算。2）APSQ量化：在累积过程中，将PSUM逐步量化到较低的精度（如INT8）。3）分组策略：将多个PSUM进行分组，共享量化参数，以提高量化效率。4）可重构架构：设计一种可重构的硬件架构，以支持APSQ的计算和数据流。

关键创新：APSQ的关键创新在于将PSUM累积与量化过程无缝集成。传统的量化方法通常在PSUM计算完成后再进行量化，而APSQ在累积过程中逐步量化，可以更有效地降低PSUM的精度，并减少量化误差。此外，分组策略和可重构架构也进一步提高了APSQ的性能和效率。

关键设计：APSQ的关键设计包括：1）量化步长的选择：需要根据PSUM的分布动态调整量化步长，以保证量化精度。2）分组大小的确定：需要根据硬件资源和量化精度要求，选择合适的分组大小。3）可重构架构的设计：需要根据APSQ的计算特点，设计一种高效的硬件架构，以支持APSQ的计算和数据流。

🖼️ 关键图片

📊 实验亮点

实验结果表明，APSQ在BERT、Segformer和EfficientViT等模型上实现了近乎无损的INT8 PSUM压缩，同时显著降低了28-87%的能量成本。在LLaMA2-7B上的扩展实验也证明了APSQ在大语言模型中的潜力。这些结果表明，APSQ是一种有效的PSUM量化方法，可以显著提高DNN加速器的性能和能效。

🎯 应用场景

APSQ方法可应用于各种深度学习加速器，尤其是在资源受限的边缘设备和移动设备上。通过降低内存需求和功耗，APSQ可以提高这些设备的推理速度和能效。此外，APSQ还可以应用于大语言模型的推理加速，降低部署成本，并促进大语言模型在更多场景中的应用。

📄 摘要（原文）

DNN accelerators, significantly advanced by model compression and specialized dataflow techniques, have marked considerable progress. However, the frequent access of high-precision partial sums (PSUMs) leads to excessive memory demands in architectures utilizing input/weight stationary dataflows. Traditional compression strategies have typically overlooked PSUM quantization, which may account for 69% of power consumption. This study introduces a novel Additive Partial Sum Quantization (APSQ) method, seamlessly integrating PSUM accumulation into the quantization framework. A grouping strategy that combines APSQ with PSUM quantization enhanced by a reconfigurable architecture is further proposed. The APSQ performs nearly lossless on NLP and CV tasks across BERT, Segformer, and EfficientViT models while compressing PSUMs to INT8. This leads to a notable reduction in energy costs by 28-87%. Extended experiments on LLaMA2-7B demonstrate the potential of APSQ for large language models. Code is available at https://github.com/Yonghao-Tan/APSQ.

APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理