When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

📄 arXiv: 2406.07368v2 📥 PDF

作者: Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, Yingyan Celine Lin

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-11 (更新: 2024-07-25)

备注: Accepted by ICML 2024; 17 pages; 10 figures; 16 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出线性注意力增强技术,结合推测解码,加速并优化自回归大语言模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 线性注意力 自回归模型 推测解码 大语言模型 模型加速

📋 核心要点

  1. 现有自回归LLM的注意力机制计算复杂度高,生成效率受限,难以满足大规模应用需求。
  2. 论文提出一种线性注意力增强技术,使其与推测解码兼容,从而提高训练和推理效率。
  3. 实验表明,该方法在降低困惑度和加速生成方面均有显著提升,验证了其有效性。

📝 摘要(中文)

自回归大语言模型(LLMs)在语言任务中表现出色,但面临两个瓶颈:(1)注意力模块的计算复杂度随token数量呈二次方增长;(2)自回归LLM在生成过程中由于其顺序处理特性导致效率受限。线性注意力和推测解码提供了潜在的解决方案,但它们在增强自回归LLM方面的适用性和协同潜力尚不明确。本研究首次全面评估了现有线性注意力方法在自回归LLM中的有效性,并将其与推测解码相结合。我们为线性注意力引入了一种增强技术,确保其与推测解码的兼容性,从而更有效地训练和服务LLM。通过对七种现有线性注意力模型和五种基于编码器/解码器的LLM进行的大量实验和消融研究,一致验证了我们增强型线性化LLM的有效性。值得注意的是,我们的方法在LLaMA模型上实现了高达6.67的困惑度降低,并且与之前的线性注意力方法相比,生成速度提高了2倍。

🔬 方法详解

问题定义:自回归大语言模型在处理长序列时,标准注意力机制的计算复杂度呈二次方增长,成为性能瓶颈。此外,自回归模型的生成过程是串行的,效率较低。现有线性注意力方法虽然降低了计算复杂度,但与推测解码等加速技术结合时存在兼容性问题,限制了其应用。

核心思路:论文的核心思路是设计一种增强的线性注意力机制,使其能够与推测解码无缝集成。通过这种方式,既能降低注意力计算的复杂度,又能利用推测解码加速生成过程,从而实现整体性能的提升。增强技术旨在解决线性注意力与推测解码结合时可能出现的不一致性问题。

技术框架:整体框架包括三个主要部分:(1) 使用线性注意力替换标准注意力模块;(2) 引入增强技术,确保线性注意力与推测解码的兼容性;(3) 将增强的线性注意力模型与推测解码算法结合,进行训练和推理。具体流程是,首先使用增强的线性注意力机制训练LLM,然后在推理阶段,利用推测解码生成草稿tokens,并使用原始模型验证这些tokens,从而加速生成过程。

关键创新:关键创新在于提出的线性注意力增强技术。该技术通过修改线性注意力的计算方式,使其能够更好地适应推测解码的特性。具体来说,增强技术可能涉及到对线性注意力输出的校准或调整,以减少推测解码过程中出现的错误。

关键设计:论文中可能包含以下关键设计细节:(1) 线性注意力机制的具体选择,例如使用RFA、Performer等;(2) 增强技术的具体实现方式,例如使用额外的线性层或非线性激活函数进行校准;(3) 推测解码算法的具体参数设置,例如草稿模型的选择、草稿长度的设置等;(4) 损失函数的设计,可能包括对推测解码过程中错误tokens的惩罚。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在LLaMA模型上实现了高达6.67的困惑度降低,显著提升了模型性能。同时,与之前的线性注意力方法相比,生成速度提高了2倍,表明该方法在效率方面也具有显著优势。这些结果验证了增强型线性化LLM的有效性,并为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可广泛应用于各种需要高效生成文本的场景,例如机器翻译、文本摘要、对话系统、代码生成等。通过降低计算复杂度和提高生成速度,可以支持更大规模的模型和更长的序列,从而提升用户体验和应用效果。未来,该技术有望推动大语言模型在资源受限设备上的部署和应用。

📄 摘要(原文)

Autoregressive Large Language Models (LLMs) have achieved impressive performance in language tasks but face two significant bottlenecks: (1) quadratic complexity in the attention module as the number of tokens increases, and (2) limited efficiency due to the sequential processing nature of autoregressive LLMs during generation. While linear attention and speculative decoding offer potential solutions, their applicability and synergistic potential for enhancing autoregressive LLMs remain uncertain. We conduct the first comprehensive study on the efficacy of existing linear attention methods for autoregressive LLMs, integrating them with speculative decoding. We introduce an augmentation technique for linear attention that ensures compatibility with speculative decoding, enabling more efficient training and serving of LLMs. Extensive experiments and ablation studies involving seven existing linear attention models and five encoder/decoder-based LLMs consistently validate the effectiveness of our augmented linearized LLMs. Notably, our approach achieves up to a 6.67 reduction in perplexity on the LLaMA model and up to a 2$\times$ speedup during generation compared to prior linear attention methods. Codes and models are available at https://github.com/GATECH-EIC/Linearized-LLM.