Learning Parameter Sharing with Tensor Decompositions and Sparsity

作者: Cem Üyük, Mike Lasby, Mohamed Yassin, Utku Evci, Yani Ioannou

分类: cs.LG

发布日期: 2024-11-14 (更新: 2025-02-23)

💡 一句话要点

FiPS：结合张量分解与稀疏性的细粒度参数共享算法，压缩ViT和LLM。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数共享 模型压缩 张量分解 稀疏性 视觉Transformer 大型语言模型 奇异值分解

📋 核心要点

大型神经网络参数众多，难以在资源受限设备上部署，模型压缩方法亟待研究。
FiPS算法利用参数共享、张量分解和稀疏性，对MLP模块进行压缩，降低模型参数量。
实验表明，FiPS在压缩ViT和LLM的同时，能够保持模型精度和困惑度，性能优异。

📝 摘要（中文）

大型神经网络在众多任务中表现出色，但其庞大的规模限制了在资源受限系统上的部署。虽然各种模型压缩策略已被广泛研究，但参数共享仍未得到充分探索。本文提出了一种新的细粒度参数共享（FiPS）算法，该算法利用参数共享、张量分解和稀疏性来有效地压缩大规模视觉Transformer（ViT）和大型语言模型（LLM）。FiPS采用共享基和稀疏因子来表示多层感知器（MLP）模块中的神经元，其中初始化由奇异值分解（SVD）指导，随后的优化通过分块重建误差最小化进行。实验结果表明，FiPS将DeiT-B和Swin-L的MLP模块的参数预算减少了50-75%，并将各种Gemma-2和Llama-3模型的参数预算减少了40-50%，同时保持ViT模型精度在原始模型的1%以内，LLM困惑度几乎没有下降。

🔬 方法详解

问题定义：现有的大型神经网络模型参数量巨大，难以部署在资源受限的设备上。虽然模型压缩技术，如剪枝、量化等，已经得到了广泛的研究，但是参数共享策略仍然有待进一步探索。现有的参数共享方法可能无法在保证模型性能的同时，实现高效的压缩。

核心思路：FiPS的核心思路是利用参数共享来减少模型中的冗余参数。具体来说，它将MLP模块中的神经元表示为共享基和稀疏因子的组合。通过这种方式，不同的神经元可以共享一部分参数，从而减少了总的参数量。此外，利用张量分解可以进一步降低参数的维度，而稀疏性则可以减少模型的计算复杂度。

技术框架：FiPS算法主要包含以下几个阶段：1. 初始化：使用奇异值分解（SVD）来初始化共享基和稀疏因子。2. 优化：通过分块重建误差最小化来优化共享基和稀疏因子。具体来说，将MLP模块分成若干个块，然后针对每个块，最小化重建误差。3. 推理：在推理阶段，使用学习到的共享基和稀疏因子来计算MLP模块的输出。

关键创新：FiPS的关键创新在于它将参数共享、张量分解和稀疏性结合起来，从而实现了高效的模型压缩。与现有的参数共享方法相比，FiPS能够更有效地减少模型中的冗余参数，同时保持模型的性能。此外，FiPS的初始化方法和优化方法也具有一定的创新性。

关键设计：FiPS的关键设计包括：1. 共享基的维度：共享基的维度决定了参数共享的程度。维度越高，参数共享的程度越高，但同时也可能导致模型性能下降。2. 稀疏因子的稀疏度：稀疏因子的稀疏度决定了模型的计算复杂度。稀疏度越高，计算复杂度越低，但同时也可能导致模型性能下降。3. 分块大小：分块大小决定了优化的效率。分块越大，优化效率越高，但同时也可能导致模型性能下降。损失函数采用分块重建误差最小化，确保压缩后的模型能够尽可能地逼近原始模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FiPS算法在压缩ViT和LLM模型方面表现出色。对于DeiT-B和Swin-L模型，FiPS可以将MLP模块的参数预算减少50-75%。对于Gemma-2和Llama-3模型，FiPS可以将参数预算减少40-50%。同时，FiPS能够保持ViT模型的精度在原始模型的1%以内，LLM的困惑度几乎没有下降。这些结果表明，FiPS是一种有效的模型压缩算法。

🎯 应用场景

FiPS算法可应用于各种需要部署大型神经网络模型的场景，尤其是在资源受限的边缘设备上，例如移动设备、嵌入式系统和物联网设备。通过压缩模型大小，FiPS可以降低模型的存储需求和计算复杂度，从而提高模型的推理速度和能效。这使得在这些设备上部署复杂的AI模型成为可能，从而推动了人工智能在更广泛领域的应用。

📄 摘要（原文）

Large neural networks exhibit exceptional performance across numerous tasks, yet their considerable size often hinders deployment on resource-constrained systems. While various model compression strategies have been well studied, parameter sharing remains underexplored. In this paper, we introduce Fine-grained Parameter Sharing (FiPS), a novel algorithm that leverages parameter sharing, tensor decomposition, and sparsity to effectively compress large-scale Vision Transformers (ViTs) and Large Language Models (LLMs). FiPS employs a shared base and sparse factors to represent neurons across multi-layer perceptron (MLP) modules, where initialization is guided by Singular Value Decomposition (SVD) and subsequent optimization is conducted through block-wise reconstruction error minimization. Experimental results show that FiPS reduces the parameter budget of MLP modules by 50-75% for DeiT-B and Swin-L and by 40-50% for various Gemma-2 and Llama-3 models while maintaining ViT model accuracy within 1% pt. of the original and LLM perplexity with negligible degradation.

Learning Parameter Sharing with Tensor Decompositions and Sparsity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理