A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models

作者: Pengxiang Zhao, Hanyu Hu, Ping Li, Yi Zheng, Zhefeng Wang, Xiaoming Yuan

分类: cs.LG, math.OC

发布日期: 2024-08-07

💡 一句话要点

提出FISTAPruner以解决大语言模型剪枝效率低下问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 剪枝 凸优化 稀疏性 FISTA求解器 性能提升 自然语言处理

📋 核心要点

现有剪枝方法在处理大规模语言模型时效率低下，常常需要再训练，影响性能。
本文提出FISTAPruner，基于凸优化模型，通过$ ext{l}_1$范数诱导稀疏性，使用FISTA求解器进行优化。
FISTAPruner在多个模型上进行评估，结果显示其在多种语言基准测试中表现优于现有方法。

📝 摘要（中文）

剪枝是压缩训练后大语言模型（LLMs）的关键策略，旨在在不影响性能的情况下实现显著的内存节省和计算加速。然而，现有剪枝方法通常需要对数十亿参数的LLMs进行低效的再训练，或依赖于诸如最优脑外科医生框架等启发式方法，这可能导致性能下降。本文提出了FISTAPruner，这是首个基于凸优化模型和算法的后训练剪枝器。具体而言，我们提出了一个结合$ ext{l}_1$范数以诱导稀疏性的凸优化模型，并利用FISTA求解器进行优化。FISTAPruner还引入了层内累积误差校正机制，并支持并行剪枝。我们在OPT、LLaMA、LLaMA-2和LLaMA-3等模型上进行了全面评估，展示了在非结构化和2:4半结构化稀疏性下，FISTAPruner在各种语言基准测试中优于现有最先进的方法。

🔬 方法详解

问题定义：本文旨在解决大语言模型剪枝过程中效率低下的问题。现有方法往往需要对模型进行再训练，或者依赖启发式方法，导致性能下降。

核心思路：FISTAPruner通过引入凸优化模型，结合$ ext{l}_1$范数来实现稀疏性，从而避免了传统剪枝方法的缺陷。使用FISTA求解器进行优化，确保了剪枝过程的高效性和准确性。

技术框架：FISTAPruner的整体架构包括三个主要模块：凸优化模型构建、FISTA求解器优化和层内累积误差校正机制。该框架支持并行剪枝，提升了处理速度。

关键创新：FISTAPruner的最大创新在于其基于凸优化的剪枝方法，区别于传统的启发式剪枝方法，能够在不牺牲性能的情况下实现高效剪枝。

关键设计：在设计中，使用$ ext{l}_1$范数作为损失函数的一部分，以诱导稀疏性。同时，FISTA求解器的选择确保了优化过程的快速收敛，层内累积误差校正机制则进一步提高了剪枝的准确性。

🖼️ 关键图片

📊 实验亮点

FISTAPruner在OPT、LLaMA、LLaMA-2和LLaMA-3等模型上进行了评估，结果显示在非结构化和2:4半结构化稀疏性下，其性能优于现有最先进的方法，具体提升幅度在各类语言基准测试中均表现出色，证明了其有效性。

🎯 应用场景

该研究具有广泛的应用潜力，特别是在需要高效计算和内存管理的自然语言处理任务中。FISTAPruner可以被应用于各种大规模语言模型的优化，帮助提升模型在实际应用中的响应速度和资源利用率，推动智能助手、自动翻译等领域的发展。

📄 摘要（原文）

Pruning is a critical strategy for compressing trained large language models (LLMs), aiming at substantial memory conservation and computational acceleration without compromising performance. However, existing pruning methods often necessitate inefficient retraining for billion-scale LLMs or rely on heuristic methods such as the optimal brain surgeon framework, which degrade performance. In this paper, we introduce FISTAPruner, the first post-training pruner based on convex optimization models and algorithms. Specifically, we propose a convex optimization model incorporating $\ell_1$ norm to induce sparsity and utilize the FISTA solver for optimization. FISTAPruner incorporates an intra-layer cumulative error correction mechanism and supports parallel pruning. We comprehensively evaluate FISTAPruner on models such as OPT, LLaMA, LLaMA-2, and LLaMA-3 with 125M to 70B parameters under unstructured and 2:4 semi-structured sparsity, demonstrating superior performance over existing state-of-the-art methods across various language benchmarks.

A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理