Efficient LLMs with AMP: Attention Heads and MLP Pruning
作者: Leandro Giusti Mugnaini, Bruno Lopes Yamamoto, Lucas Lauton de Alcantara, Victor Zacarias, Edson Bollis, Lucas Pellicer, Anna Helena Reali Costa, Artur Jordao
分类: cs.LG
发布日期: 2025-04-29
备注: To be published in International Joint Conference on Neural Networks (IJCNN), 2025
💡 一句话要点
提出AMP:一种高效的LLM剪枝方法,用于加速推理并降低资源消耗
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型剪枝 结构化剪枝 多头注意力 多层感知机 推理加速 资源受限环境
📋 核心要点
- 大型语言模型参数众多,计算成本高昂,推理速度慢,难以在资源受限的环境中部署。
- AMP通过评估多头注意力和多层感知机中结构的权重重要性,有选择地进行剪枝,从而压缩模型。
- 实验表明,AMP在常识推理任务上超越了现有技术,并在保持性能的同时提高了推理速度,适用于多种LLM。
📝 摘要(中文)
深度学习正在推动计算系统的新浪潮,并触发日益复杂的自动化问题。特别是,大型语言模型(LLM)在认知任务方面取得了显著进展,通常达到甚至超过人类水平。然而,它们庞大的参数导致高计算成本和缓慢的推理速度,对资源受限环境中的部署构成挑战。为了克服上述挑战,剪枝作为一种成功的机制出现,因为它可以在保持预测能力的同时减小模型尺寸。本文介绍AMP:注意力头和MLP剪枝,一种新颖的结构化剪枝方法,通过移除多头注意力(MHA)和多层感知机(MLP)中不太关键的结构来有效地压缩LLM。通过将输入数据投影到权重上,AMP评估结构重要性,并克服现有技术的局限性,这些技术通常在灵活性或效率方面存在不足。特别地,AMP在常识推理任务上超越了当前最先进水平,提升高达1.49个百分点,在30%的剪枝率下对零样本任务性能的影响最小。此外,AMP还提高了推理速度,使其非常适合在资源受限的环境中部署。我们在不同的LLM系列(包括LLaMA和Phi)上证实了AMP的灵活性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在资源受限环境中部署的难题。现有剪枝方法在灵活性和效率方面存在不足,无法在保证模型性能的同时,有效地减小模型尺寸并提高推理速度。这些方法通常难以准确评估模型内部不同结构的重要性,导致剪枝后性能下降。
核心思路:AMP的核心思路是通过评估LLM中多头注意力(MHA)和多层感知机(MLP)内部结构的权重重要性,有选择地移除不太重要的结构,从而实现模型压缩。该方法通过将输入数据投影到权重上,来评估每个结构对模型输出的影响,从而确定其重要性。
技术框架:AMP方法主要包含以下几个阶段:1) 重要性评估:将输入数据投影到MHA和MLP的权重上,计算每个结构的重要性得分。2) 剪枝决策:根据重要性得分,确定要剪枝的结构,例如注意力头或MLP中的神经元。3) 模型剪枝:从模型中移除选定的结构。4) 微调(可选):对剪枝后的模型进行微调,以恢复性能。
关键创新:AMP的关键创新在于其结构化剪枝方法,该方法能够更准确地评估LLM内部不同结构的重要性。与传统的非结构化剪枝方法相比,AMP能够更好地保持模型的结构完整性,从而减少剪枝对模型性能的影响。此外,AMP通过将输入数据投影到权重上,能够更有效地评估结构的重要性,克服了现有方法在灵活性和效率方面的局限性。
关键设计:AMP的关键设计包括:1) 重要性得分计算:使用输入数据投影到权重上的结果来计算每个结构的重要性得分。具体的计算方式可能涉及对投影结果进行统计分析,例如计算均值或方差。2) 剪枝策略:根据重要性得分,选择要剪枝的结构。可以使用不同的剪枝策略,例如固定比例剪枝或基于阈值的剪枝。3) 微调策略:对剪枝后的模型进行微调,以恢复性能。可以使用不同的微调策略,例如全参数微调或仅微调部分参数。
🖼️ 关键图片
📊 实验亮点
AMP在常识推理任务上取得了显著的性能提升,超越了当前最先进水平高达1.49个百分点。在30%的剪枝率下,AMP对零样本任务性能的影响最小。此外,AMP还提高了推理速度,使其非常适合在资源受限的环境中部署。实验结果表明,AMP在不同的LLM系列(包括LLaMA和Phi)上都具有良好的性能。
🎯 应用场景
AMP方法可应用于各种需要部署大型语言模型的场景,尤其是在资源受限的环境中,例如移动设备、边缘计算设备等。通过减小模型尺寸和提高推理速度,AMP可以使LLM在这些设备上更高效地运行,从而实现更广泛的应用,例如智能助手、机器翻译、文本摘要等。
📄 摘要(原文)
Deep learning drives a new wave in computing systems and triggers the automation of increasingly complex problems. In particular, Large Language Models (LLMs) have significantly advanced cognitive tasks, often matching or even surpassing human-level performance. However, their extensive parameters result in high computational costs and slow inference, posing challenges for deployment in resource-limited settings. Among the strategies to overcome the aforementioned challenges, pruning emerges as a successful mechanism since it reduces model size while maintaining predictive ability. In this paper, we introduce AMP: Attention Heads and MLP Pruning, a novel structured pruning method that efficiently compresses LLMs by removing less critical structures within Multi-Head Attention (MHA) and Multilayer Perceptron (MLP). By projecting the input data onto weights, AMP assesses structural importance and overcomes the limitations of existing techniques, which often fall short in flexibility or efficiency. In particular, AMP surpasses the current state-of-the-art on commonsense reasoning tasks by up to 1.49 percentage points, achieving a 30% pruning ratio with minimal impact on zero-shot task performance. Moreover, AMP also improves inference speeds, making it well-suited for deployment in resource-constrained environments. We confirm the flexibility of AMP on different families of LLMs, including LLaMA and Phi.