Search for Efficient Large Language Models

📄 arXiv: 2409.17372v2 📥 PDF

作者: Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang

分类: cs.AI

发布日期: 2024-09-25 (更新: 2024-10-30)

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种免训练架构搜索框架,用于高效压缩和加速大型语言模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型压缩 架构搜索 免训练 推理加速 权重剪枝 子网络 重构算法

📋 核心要点

  1. 现有LLM压缩方法侧重权重优化,忽略了架构探索,且传统架构搜索方法难以应对LLM的复杂性。
  2. 提出免训练架构搜索框架,寻找最优子网络,继承原LLM优势并加速推理。
  3. 引入重构算法,利用省略的权重修正继承的权重,实验表明优于SOTA免训练剪枝方法。

📝 摘要(中文)

大型语言模型(LLMs)长期以来在人工智能研究领域占据主导地位。为了压缩LLMs,人们采用了包括权重剪枝、量化和蒸馏在内的多种高效技术,以减少内存占用和加速推理,这突显了LLMs中的冗余。然而,大多数模型压缩技术都集中在权重优化上,忽略了对最优架构的探索。此外,传统的架构搜索方法由于参数过多而复杂度过高,难以在LLMs上展示其有效性。在本文中,我们提出了一种免训练的架构搜索框架,以识别能够保留原始LLMs基本优势,同时实现推理加速的最优子网络。此外,在生成从原始LLMs继承特定权重的子网络后,我们引入了一种重构算法,该算法利用省略的权重,通过少量校准数据来修正继承的权重。与能够生成更小网络的SOTA免训练结构化剪枝工作相比,我们的方法在标准基准测试中表现出卓越的性能。此外,我们生成的子网络可以直接减少GPU内存的使用并实现推理加速。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的压缩和加速问题。现有方法主要集中在权重剪枝、量化等权重优化层面,忽略了模型架构本身存在的冗余。传统的架构搜索方法由于计算复杂度过高,难以直接应用于参数量巨大的LLMs,导致无法有效探索更优的模型结构。

核心思路:论文的核心思路是提出一种免训练的架构搜索框架,直接在原始LLM中搜索最优的子网络结构,避免了从头训练的巨大开销。通过继承原始LLM的权重,并利用一种重构算法来修正这些权重,从而在保证性能的同时,显著减少模型大小和推理时间。

技术框架:该框架主要包含两个阶段:1) 架构搜索阶段:利用免训练的搜索策略,在原始LLM中搜索最优的子网络结构。该阶段旨在找到一个既能保持原始模型性能,又能显著减少参数量的子网络。2) 权重重构阶段:在获得子网络后,利用原始LLM中被省略的权重信息,通过一种重构算法来修正子网络继承的权重。该阶段使用少量校准数据,进一步提升子网络的性能。

关键创新:该论文的关键创新在于提出了一种免训练的架构搜索方法,可以直接应用于大型语言模型。与传统的架构搜索方法相比,该方法避免了从头训练的巨大开销,大大降低了搜索的难度。此外,提出的权重重构算法,能够有效利用原始模型的信息,进一步提升子网络的性能。

关键设计:架构搜索阶段采用了一种基于重要性评分的搜索策略,根据神经元或层的贡献度来决定是否保留。权重重构阶段,使用少量校准数据,通过最小化子网络输出与原始LLM输出之间的差异来优化权重。具体的损失函数和优化算法的选择,以及校准数据的规模,是影响最终性能的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在标准基准测试中表现出优于SOTA免训练结构化剪枝方法,证明了其有效性。生成的子网络可以直接减少GPU内存的使用,并实现推理加速。具体性能提升数据需要在论文中查找,这里无法给出。

🎯 应用场景

该研究成果可广泛应用于需要部署大型语言模型的场景,例如移动设备、边缘计算设备等资源受限的环境。通过压缩和加速LLM,可以降低部署成本,提高推理效率,从而促进LLM在更多实际应用中的落地,例如智能助手、机器翻译、文本生成等。

📄 摘要(原文)

Large Language Models (LLMs) have long held sway in the realms of artificial intelligence research. Numerous efficient techniques, including weight pruning, quantization, and distillation, have been embraced to compress LLMs, targeting memory reduction and inference acceleration, which underscore the redundancy in LLMs. However, most model compression techniques concentrate on weight optimization, overlooking the exploration of optimal architectures. Besides, traditional architecture search methods, limited by the elevated complexity with extensive parameters, struggle to demonstrate their effectiveness on LLMs. In this paper, we propose a training-free architecture search framework to identify optimal subnets that preserve the fundamental strengths of the original LLMs while achieving inference acceleration. Furthermore, after generating subnets that inherit specific weights from the original LLMs, we introduce a reformation algorithm that utilizes the omitted weights to rectify the inherited weights with a small amount of calibration data. Compared with SOTA training-free structured pruning works that can generate smaller networks, our method demonstrates superior performance across standard benchmarks. Furthermore, our generated subnets can directly reduce the usage of GPU memory and achieve inference acceleration. Code: https://github.com/shawnricecake/search-llm