OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models
作者: Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung
分类: cs.LG, cs.AR, cs.CL
发布日期: 2024-09-06 (更新: 2024-09-24)
备注: 7 pages, 8 figures, DAC2024 accepted
💡 一句话要点
提出OPAL以解决大语言模型的内存和带宽挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 激活量化 混合精度 能效优化 硬件加速
📋 核心要点
- 现有方法在大语言模型的激活量化方面研究不足,导致内存和带宽的压力加大。
- 本文提出了一种新颖的激活量化方法,结合微缩数据格式和混合精度,优化了LLM的能效。
- 实验结果表明,OPAL在能效上提高了1.6~2.2倍,面积减少了2.4~3.1倍,且准确性损失极小。
📝 摘要(中文)
为了应对大语言模型(LLMs)日益增长的内存和带宽需求,近期研究了激进的权重量化,但对激活量化的研究较少。本文提出了一种硬件-软件协同设计方法,开发了名为OPAL的能效高的LLM加速器,专注于生成任务。首先,提出了一种新颖的激活量化方法,利用微缩数据格式,同时保留每个子张量块的几个异常值。其次,在保留异常值的基础上,采用混合精度,为解码器块中敏感层的输入设置5位,而对不太敏感层的输入设置3位。最后,展示了OPAL硬件架构,包括处理异常值的FP单元和用于主要非异常值相关操作的向量化INT乘法器。此外,OPAL在softmax操作中使用基于log2的近似,仅需移位和减法,以最大化功率效率。最终,能效提高了1.6~2.2倍,面积减少了2.4~3.1倍,且准确性损失微乎其微,即困惑度增加小于1。
🔬 方法详解
问题定义:本文旨在解决大语言模型在内存和带宽方面的挑战,尤其是激活量化的不足。现有方法主要集中于权重量化,未能有效处理激活的量化问题,导致资源消耗过大。
核心思路:论文提出了一种硬件-软件协同设计的方法,通过引入微缩数据格式和混合精度量化,来优化激活的存储和计算效率。通过保留每个子张量块的异常值,确保模型性能不受影响。
技术框架:OPAL的整体架构包括处理异常值的FP单元和用于非异常值操作的向量化INT乘法器。激活量化过程分为两个阶段:首先进行微缩数据格式的量化,然后应用混合精度策略。
关键创新:最重要的创新在于提出的激活量化方法,能够在保留异常值的同时,采用混合精度量化策略,显著提升了能效和计算性能。这一方法与传统的全精度或单一量化方法有本质区别。
关键设计:在设计中,敏感层的输入采用5位量化,而不太敏感层的输入则采用3位量化。此外,OPAL在softmax操作中使用基于log2的近似,减少了计算复杂度,进一步提高了能效。通过这些设计,确保了在降低资源消耗的同时,模型的准确性保持在可接受范围内。
🖼️ 关键图片
📊 实验亮点
实验结果显示,OPAL在能效方面提升了1.6~2.2倍,面积减少了2.4~3.1倍,且在准确性上仅有小于1的困惑度增加。这些结果表明,OPAL在保持性能的同时,显著优化了资源使用,具有良好的应用前景。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和生成模型等。通过提高大语言模型的能效,OPAL能够在资源受限的环境中实现更高效的推理,推动智能助手和自动化系统的发展,具有重要的实际价值和未来影响。
📄 摘要(原文)
To overcome the burden on the memory size and bandwidth due to ever-increasing size of large language models (LLMs), aggressive weight quantization has been recently studied, while lacking research on quantizing activations. In this paper, we present a hardware-software co-design method that results in an energy-efficient LLM accelerator, named OPAL, for generation tasks. First of all, a novel activation quantization method that leverages the microscaling data format while preserving several outliers per sub-tensor block (e.g., four out of 128 elements) is proposed. Second, on top of preserving outliers, mixed precision is utilized that sets 5-bit for inputs to sensitive layers in the decoder block of an LLM, while keeping inputs to less sensitive layers to 3-bit. Finally, we present the OPAL hardware architecture that consists of FP units for handling outliers and vectorized INT multipliers for dominant non-outlier related operations. In addition, OPAL uses log2-based approximation on softmax operations that only requires shift and subtraction to maximize power efficiency. As a result, we are able to improve the energy efficiency by 1.6~2.2x, and reduce the area by 2.4~3.1x with negligible accuracy loss, i.e., <1 perplexity increase.