APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design
作者: Yonghao Tan, Pingcheng Dong, Yongkun Wu, Yu Liu, Xuejiao Liu, Peng Luo, Shih-Yang Liu, Xijie Huang, Dong Zhang, Luhong Liang, Kwang-Ting Cheng
分类: cs.AR, cs.AI
发布日期: 2025-04-10
备注: 62nd ACM/IEEE Design Automation Conference (DAC) 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出APSQ:一种算法-硬件协同设计的加性部分和量化方法,降低DNN加速器功耗
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 部分和量化 DNN加速器 低功耗设计 算法硬件协同设计 模型压缩
📋 核心要点
- 现有DNN加速器设计中,高精度部分和(PSUM)的频繁访问导致内存需求过高,成为性能瓶颈。
- APSQ方法将PSUM累积集成到量化框架中,并结合分组策略和可重构架构,实现高效的PSUM压缩。
- 实验结果表明,APSQ在多种模型和任务上实现了显著的能耗降低,并具有应用于大语言模型的潜力。
📝 摘要(中文)
深度神经网络(DNN)加速器通过模型压缩和专用数据流技术取得了显著进展。然而,频繁访问高精度部分和(PSUM)导致输入/权重静止数据流架构中过度的内存需求。传统的压缩策略通常忽略了PSUM量化,而这可能占总功耗的69%。本研究提出了一种新的加性部分和量化(APSQ)方法,将PSUM累积无缝集成到量化框架中。进一步提出了一种分组策略,将APSQ与PSUM量化相结合,并通过可重构架构进行增强。APSQ在BERT、Segformer和EfficientViT等NLP和CV任务上实现了近乎无损的INT8 PSUM压缩,从而显著降低了28-87%的能量成本。在LLaMA2-7B上的扩展实验证明了APSQ在大语言模型中的潜力。代码已在https://github.com/Yonghao-Tan/APSQ上提供。
🔬 方法详解
问题定义:论文旨在解决DNN加速器中,由于频繁访问高精度部分和(PSUM)而导致的内存需求过高和功耗问题。现有方法通常忽略PSUM的量化,或者量化效果不佳,导致功耗优化空间受限。PSUM的存储和访问占用了大量的能量,尤其是在输入/权重静止的数据流架构中。
核心思路:论文的核心思路是将PSUM的累积过程与量化过程相结合,提出一种加性部分和量化(APSQ)方法。通过在累积过程中逐步量化,降低PSUM的精度,从而减少内存需求和功耗。同时,采用分组策略和可重构架构,进一步优化量化效果和硬件效率。
技术框架:APSQ方法主要包含以下几个阶段:1)PSUM累积:按照数据流顺序进行PSUM的累积计算。2)APSQ量化:在累积过程中,将PSUM逐步量化到较低的精度(如INT8)。3)分组策略:将多个PSUM进行分组,共享量化参数,以提高量化效率。4)可重构架构:设计一种可重构的硬件架构,以支持APSQ的计算和数据流。
关键创新:APSQ的关键创新在于将PSUM累积与量化过程无缝集成。传统的量化方法通常在PSUM计算完成后再进行量化,而APSQ在累积过程中逐步量化,可以更有效地降低PSUM的精度,并减少量化误差。此外,分组策略和可重构架构也进一步提高了APSQ的性能和效率。
关键设计:APSQ的关键设计包括:1)量化步长的选择:需要根据PSUM的分布动态调整量化步长,以保证量化精度。2)分组大小的确定:需要根据硬件资源和量化精度要求,选择合适的分组大小。3)可重构架构的设计:需要根据APSQ的计算特点,设计一种高效的硬件架构,以支持APSQ的计算和数据流。
🖼️ 关键图片
📊 实验亮点
实验结果表明,APSQ在BERT、Segformer和EfficientViT等模型上实现了近乎无损的INT8 PSUM压缩,同时显著降低了28-87%的能量成本。在LLaMA2-7B上的扩展实验也证明了APSQ在大语言模型中的潜力。这些结果表明,APSQ是一种有效的PSUM量化方法,可以显著提高DNN加速器的性能和能效。
🎯 应用场景
APSQ方法可应用于各种深度学习加速器,尤其是在资源受限的边缘设备和移动设备上。通过降低内存需求和功耗,APSQ可以提高这些设备的推理速度和能效。此外,APSQ还可以应用于大语言模型的推理加速,降低部署成本,并促进大语言模型在更多场景中的应用。
📄 摘要(原文)
DNN accelerators, significantly advanced by model compression and specialized dataflow techniques, have marked considerable progress. However, the frequent access of high-precision partial sums (PSUMs) leads to excessive memory demands in architectures utilizing input/weight stationary dataflows. Traditional compression strategies have typically overlooked PSUM quantization, which may account for 69% of power consumption. This study introduces a novel Additive Partial Sum Quantization (APSQ) method, seamlessly integrating PSUM accumulation into the quantization framework. A grouping strategy that combines APSQ with PSUM quantization enhanced by a reconfigurable architecture is further proposed. The APSQ performs nearly lossless on NLP and CV tasks across BERT, Segformer, and EfficientViT models while compressing PSUMs to INT8. This leads to a notable reduction in energy costs by 28-87%. Extended experiments on LLaMA2-7B demonstrate the potential of APSQ for large language models. Code is available at https://github.com/Yonghao-Tan/APSQ.