Learning Parameter Sharing with Tensor Decompositions and Sparsity

📄 arXiv: 2411.09816v3 📥 PDF

作者: Cem Üyük, Mike Lasby, Mohamed Yassin, Utku Evci, Yani Ioannou

分类: cs.LG

发布日期: 2024-11-14 (更新: 2025-02-23)


💡 一句话要点

FiPS:结合张量分解与稀疏性的细粒度参数共享算法,压缩ViT和LLM。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数共享 模型压缩 张量分解 稀疏性 视觉Transformer 大型语言模型 奇异值分解

📋 核心要点

  1. 大型神经网络参数众多,难以在资源受限设备上部署,模型压缩方法亟待研究。
  2. FiPS算法利用参数共享、张量分解和稀疏性,对MLP模块进行压缩,降低模型参数量。
  3. 实验表明,FiPS在压缩ViT和LLM的同时,能够保持模型精度和困惑度,性能优异。

📝 摘要(中文)

大型神经网络在众多任务中表现出色,但其庞大的规模限制了在资源受限系统上的部署。虽然各种模型压缩策略已被广泛研究,但参数共享仍未得到充分探索。本文提出了一种新的细粒度参数共享(FiPS)算法,该算法利用参数共享、张量分解和稀疏性来有效地压缩大规模视觉Transformer(ViT)和大型语言模型(LLM)。FiPS采用共享基和稀疏因子来表示多层感知器(MLP)模块中的神经元,其中初始化由奇异值分解(SVD)指导,随后的优化通过分块重建误差最小化进行。实验结果表明,FiPS将DeiT-B和Swin-L的MLP模块的参数预算减少了50-75%,并将各种Gemma-2和Llama-3模型的参数预算减少了40-50%,同时保持ViT模型精度在原始模型的1%以内,LLM困惑度几乎没有下降。

🔬 方法详解

问题定义:现有的大型神经网络模型参数量巨大,难以部署在资源受限的设备上。虽然模型压缩技术,如剪枝、量化等,已经得到了广泛的研究,但是参数共享策略仍然有待进一步探索。现有的参数共享方法可能无法在保证模型性能的同时,实现高效的压缩。

核心思路:FiPS的核心思路是利用参数共享来减少模型中的冗余参数。具体来说,它将MLP模块中的神经元表示为共享基和稀疏因子的组合。通过这种方式,不同的神经元可以共享一部分参数,从而减少了总的参数量。此外,利用张量分解可以进一步降低参数的维度,而稀疏性则可以减少模型的计算复杂度。

技术框架:FiPS算法主要包含以下几个阶段:1. 初始化:使用奇异值分解(SVD)来初始化共享基和稀疏因子。2. 优化:通过分块重建误差最小化来优化共享基和稀疏因子。具体来说,将MLP模块分成若干个块,然后针对每个块,最小化重建误差。3. 推理:在推理阶段,使用学习到的共享基和稀疏因子来计算MLP模块的输出。

关键创新:FiPS的关键创新在于它将参数共享、张量分解和稀疏性结合起来,从而实现了高效的模型压缩。与现有的参数共享方法相比,FiPS能够更有效地减少模型中的冗余参数,同时保持模型的性能。此外,FiPS的初始化方法和优化方法也具有一定的创新性。

关键设计:FiPS的关键设计包括:1. 共享基的维度:共享基的维度决定了参数共享的程度。维度越高,参数共享的程度越高,但同时也可能导致模型性能下降。2. 稀疏因子的稀疏度:稀疏因子的稀疏度决定了模型的计算复杂度。稀疏度越高,计算复杂度越低,但同时也可能导致模型性能下降。3. 分块大小:分块大小决定了优化的效率。分块越大,优化效率越高,但同时也可能导致模型性能下降。损失函数采用分块重建误差最小化,确保压缩后的模型能够尽可能地逼近原始模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FiPS算法在压缩ViT和LLM模型方面表现出色。对于DeiT-B和Swin-L模型,FiPS可以将MLP模块的参数预算减少50-75%。对于Gemma-2和Llama-3模型,FiPS可以将参数预算减少40-50%。同时,FiPS能够保持ViT模型的精度在原始模型的1%以内,LLM的困惑度几乎没有下降。这些结果表明,FiPS是一种有效的模型压缩算法。

🎯 应用场景

FiPS算法可应用于各种需要部署大型神经网络模型的场景,尤其是在资源受限的边缘设备上,例如移动设备、嵌入式系统和物联网设备。通过压缩模型大小,FiPS可以降低模型的存储需求和计算复杂度,从而提高模型的推理速度和能效。这使得在这些设备上部署复杂的AI模型成为可能,从而推动了人工智能在更广泛领域的应用。

📄 摘要(原文)

Large neural networks exhibit exceptional performance across numerous tasks, yet their considerable size often hinders deployment on resource-constrained systems. While various model compression strategies have been well studied, parameter sharing remains underexplored. In this paper, we introduce Fine-grained Parameter Sharing (FiPS), a novel algorithm that leverages parameter sharing, tensor decomposition, and sparsity to effectively compress large-scale Vision Transformers (ViTs) and Large Language Models (LLMs). FiPS employs a shared base and sparse factors to represent neurons across multi-layer perceptron (MLP) modules, where initialization is guided by Singular Value Decomposition (SVD) and subsequent optimization is conducted through block-wise reconstruction error minimization. Experimental results show that FiPS reduces the parameter budget of MLP modules by 50-75% for DeiT-B and Swin-L and by 40-50% for various Gemma-2 and Llama-3 models while maintaining ViT model accuracy within 1% pt. of the original and LLM perplexity with negligible degradation.