OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models

作者: Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung

分类: cs.LG, cs.AR, cs.CL

发布日期: 2024-09-06 (更新: 2024-09-24)

备注: 7 pages, 8 figures, DAC2024 accepted

💡 一句话要点

提出OPAL以解决大语言模型的内存和带宽挑战

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活量化 混合精度 能效优化 硬件加速

📋 核心要点

现有方法在大语言模型的激活量化方面研究不足，导致内存和带宽的压力加大。
本文提出了一种新颖的激活量化方法，结合微缩数据格式和混合精度，优化了LLM的能效。
实验结果表明，OPAL在能效上提高了1.6~2.2倍，面积减少了2.4~3.1倍，且准确性损失极小。

📝 摘要（中文）

为了应对大语言模型（LLMs）日益增长的内存和带宽需求，近期研究了激进的权重量化，但对激活量化的研究较少。本文提出了一种硬件-软件协同设计方法，开发了名为OPAL的能效高的LLM加速器，专注于生成任务。首先，提出了一种新颖的激活量化方法，利用微缩数据格式，同时保留每个子张量块的几个异常值。其次，在保留异常值的基础上，采用混合精度，为解码器块中敏感层的输入设置5位，而对不太敏感层的输入设置3位。最后，展示了OPAL硬件架构，包括处理异常值的FP单元和用于主要非异常值相关操作的向量化INT乘法器。此外，OPAL在softmax操作中使用基于log2的近似，仅需移位和减法，以最大化功率效率。最终，能效提高了1.6~2.2倍，面积减少了2.4~3.1倍，且准确性损失微乎其微，即困惑度增加小于1。

🔬 方法详解

问题定义：本文旨在解决大语言模型在内存和带宽方面的挑战，尤其是激活量化的不足。现有方法主要集中于权重量化，未能有效处理激活的量化问题，导致资源消耗过大。

核心思路：论文提出了一种硬件-软件协同设计的方法，通过引入微缩数据格式和混合精度量化，来优化激活的存储和计算效率。通过保留每个子张量块的异常值，确保模型性能不受影响。

技术框架：OPAL的整体架构包括处理异常值的FP单元和用于非异常值操作的向量化INT乘法器。激活量化过程分为两个阶段：首先进行微缩数据格式的量化，然后应用混合精度策略。

关键创新：最重要的创新在于提出的激活量化方法，能够在保留异常值的同时，采用混合精度量化策略，显著提升了能效和计算性能。这一方法与传统的全精度或单一量化方法有本质区别。

关键设计：在设计中，敏感层的输入采用5位量化，而不太敏感层的输入则采用3位量化。此外，OPAL在softmax操作中使用基于log2的近似，减少了计算复杂度，进一步提高了能效。通过这些设计，确保了在降低资源消耗的同时，模型的准确性保持在可接受范围内。

🖼️ 关键图片

📊 实验亮点

实验结果显示，OPAL在能效方面提升了1.6~2.2倍，面积减少了2.4~3.1倍，且在准确性上仅有小于1的困惑度增加。这些结果表明，OPAL在保持性能的同时，显著优化了资源使用，具有良好的应用前景。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和生成模型等。通过提高大语言模型的能效，OPAL能够在资源受限的环境中实现更高效的推理，推动智能助手和自动化系统的发展，具有重要的实际价值和未来影响。

📄 摘要（原文）

To overcome the burden on the memory size and bandwidth due to ever-increasing size of large language models (LLMs), aggressive weight quantization has been recently studied, while lacking research on quantizing activations. In this paper, we present a hardware-software co-design method that results in an energy-efficient LLM accelerator, named OPAL, for generation tasks. First of all, a novel activation quantization method that leverages the microscaling data format while preserving several outliers per sub-tensor block (e.g., four out of 128 elements) is proposed. Second, on top of preserving outliers, mixed precision is utilized that sets 5-bit for inputs to sensitive layers in the decoder block of an LLM, while keeping inputs to less sensitive layers to 3-bit. Finally, we present the OPAL hardware architecture that consists of FP units for handling outliers and vectorized INT multipliers for dominant non-outlier related operations. In addition, OPAL uses log2-based approximation on softmax operations that only requires shift and subtraction to maximize power efficiency. As a result, we are able to improve the energy efficiency by 1.6~2.2x, and reduce the area by 2.4~3.1x with negligible accuracy loss, i.e., <1 perplexity increase.

OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理