Beyond FLOPs: Benchmarking Real Inference Acceleration of LLM Pruning under a GEMM-Centric Taxonomy
作者: Haozhe Hu, Hao Wu, Anhao Zhao, Longwei Ding, Peiran Yin, Yunpu Ma, Xiaoyu Shen
分类: cs.LG, cs.CL
发布日期: 2026-06-08
备注: 22 pages, 14 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出GEMM中心分类法以优化大语言模型剪枝加速
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 剪枝技术 推理加速 基准测试 矩阵乘法
📋 核心要点
- 现有的剪枝方法在加速大语言模型推理时,实际加速效果受限于硬件和内核实现,导致不同方法的加速效果难以比较。
- 本文提出了一种GEMM中心的分类法,重新组织现有剪枝方法,并建立统一的基准测试框架,以实现一致的比较和系统性特征描述。
- 实验结果显示,静态深度剪枝在内存受限场景下表现最佳,且在不同质量损失水平下,剪枝策略的选择对加速效果有显著影响。
📝 摘要(中文)
剪枝已成为加速大语言模型(LLM)推理的主要方法,涵盖了通过移除计算来提高效率的多种技术。尽管这些方法的目标相同,但它们的执行行为存在根本差异,导致实际加速效果受硬件和内核实现的影响较大。本文提出了一种GEMM中心的分类法,将现有剪枝方法按照通用矩阵乘法(GEMM)的逻辑维度进行重新组织,并建立了一个统一的基准测试框架,以便在剪枝设计空间中进行一致的比较。研究结果表明,静态深度剪枝在内存受限场景下仍然是最优基线,并且在不同质量损失水平下的加速效果表现出明显的变化。这些发现为剪枝基础的LLM加速的实际限制提供了统一视角,并为未来的剪枝研究提供了指导。
🔬 方法详解
问题定义:本文旨在解决不同剪枝方法在大语言模型推理中的加速效果难以比较的问题。现有方法在执行行为上存在根本差异,导致实际加速效果受硬件和内核实现的影响较大。
核心思路:论文提出了一种GEMM中心的分类法,将剪枝方法按照通用矩阵乘法的逻辑维度(M、N、K)进行重新组织。这种设计使得不同剪枝方法的比较更加系统化和一致化。
技术框架:整体架构包括三个主要模块:首先是剪枝方法的分类与重组,其次是基准测试框架的构建,最后是加速与质量之间的Pareto前沿特征描述。
关键创新:最重要的技术创新点在于提出了GEMM中心的分类法,使得不同剪枝方法的比较变得更加直观和系统,与现有方法相比,提供了更为统一的视角。
关键设计:在实验中,静态深度剪枝被确定为最优基线,且在不同质量损失水平下,剪枝策略的选择表现出明显的加速效果变化,具体包括静态深度、动态深度和静态宽度剪枝的不同表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,静态深度剪枝在内存受限场景下仍然是最优基线,且在低质量损失(0%-4%)时表现最佳,随着质量损失的增加,剪枝策略的选择对加速效果的影响显著,动态深度和静态宽度剪枝在中高质量损失下表现出不同的加速能力。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等,能够有效提升大语言模型在实际应用中的推理速度和效率。通过优化剪枝策略,研究成果将为未来的模型设计和部署提供重要参考,推动智能系统的实时响应能力。
📄 摘要(原文)
Pruning has emerged as a dominant paradigm for accelerating large language model (LLM) inference, spanning a broad spectrum of methods that remove computation across tokens, layers, heads, dimensions, and attention patterns. Despite sharing the same objective, these pruning approaches induce fundamentally different execution behaviors, causing realized speedups to depend heavily on hardware and kernel implementations. Consequently, the practical acceleration benefits of different pruning families remain poorly understood. In this work, we introduce a GEMM-centric taxonomy that reorganizes existing pruning methods according to the logical \textbf{M}, \textbf{N}, and \textbf{K} dimensions of general matrix multiplication (GEMM). Leveraging this abstraction, we build a unified benchmarking framework that enables implementation-consistent comparison across the pruning design space and systematically characterizes the acceleration--quality Pareto frontier. Our results show that static depth pruning remains the strongest Pareto-optimal baseline and stays closest to its theoretical acceleration upper bound in memory-bounded scenarios. During prefill, the frontier transitions from static depth at low quality loss (0\%--4\%), to dynamic depth at moderate loss (5\%--16\%), and finally to static width pruning at higher loss levels (17\%--26\%). These findings establish the first unified view of the practical limits of pruning-based LLM acceleration and provide guidance for future pruning research.\footnote{Code is available at https://github.com/EIT-NLP/LLM-Pruning/tree/main/PruningInferSim}