ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs

📄 arXiv: 2504.13237v1 📥 PDF

作者: Yan Yang, Yixia Li, Hongru Wang, Xuetao Wei, Jianqiao Yu, Yun Chen, Guanhua Chen

分类: cs.CL

发布日期: 2025-04-17


💡 一句话要点

ImPart:面向LLM的基于重要性的Delta稀疏化方法,提升模型压缩与合并效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型压缩 delta稀疏化 奇异值分解 模型合并

📋 核心要点

  1. 现有delta稀疏化方法忽略参数重要性或评估粒度过粗,导致压缩性能受限。
  2. ImPart利用SVD,根据奇异向量的重要性动态调整稀疏比例,保留关键任务知识。
  3. 实验表明,ImPart在delta稀疏化、量化和模型合并方面均优于现有方法,压缩率提升显著。

📝 摘要(中文)

随着特定任务的大型语言模型激增,delta压缩已成为缓解部署大量此类模型所带来的资源挑战的一种方法,它能有效压缩delta模型参数。以往的delta稀疏化方法要么随机移除参数,要么在奇异值分解(SVD)后直接截断奇异向量。然而,这些方法要么完全忽略了参数的重要性,要么以过于粗糙的粒度评估其重要性。本文提出了一种新颖的、基于重要性的delta稀疏化方法ImPart。它利用SVD,根据不同奇异向量的重要性动态调整其稀疏比例,即使在高稀疏度下也能有效保留关键的特定任务知识。实验表明,ImPart实现了最先进的delta稀疏化性能,在相同性能水平下,压缩率比基线方法高2倍。当与现有方法集成时,ImPart在delta量化和模型合并方面创造了新的state-of-the-art。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的delta压缩问题,特别是在模型微调后,如何高效地压缩delta参数,以便于存储和传输。现有方法,如随机稀疏化和基于SVD的截断,要么忽略了参数的重要性,要么以粗粒度的方式处理,导致压缩率和性能之间难以取得平衡。这些方法无法有效保留特定任务的关键知识,尤其是在高压缩率下,模型性能下降明显。

核心思路:ImPart的核心思路是基于参数的重要性进行delta稀疏化。它认为不同的delta参数对模型性能的贡献不同,因此应该根据其重要性差异化地进行稀疏化。具体来说,ImPart利用SVD将delta参数分解为一系列奇异向量,然后根据每个奇异向量的重要性(例如,对应的奇异值大小)动态调整其稀疏比例。更重要的奇异向量保留更多参数,而不太重要的奇异向量则进行更激进的稀疏化。

技术框架:ImPart的技术框架主要包括以下几个步骤:1) 对delta参数进行奇异值分解(SVD),得到奇异向量和奇异值;2) 根据奇异值计算每个奇异向量的重要性权重;3) 根据重要性权重动态调整每个奇异向量的稀疏比例;4) 对每个奇异向量进行稀疏化,得到稀疏的delta参数。整个过程旨在保留重要的任务特定知识,同时实现高压缩率。

关键创新:ImPart最重要的技术创新点在于其重要性感知的稀疏化策略。与传统的随机稀疏化或直接截断奇异向量的方法不同,ImPart能够根据每个奇异向量的重要性动态调整其稀疏比例,从而更有效地保留关键信息。这种方法能够在高压缩率下显著提升模型性能,并优于现有技术。

关键设计:ImPart的关键设计包括:1) 使用奇异值作为奇异向量重要性的度量;2) 设计了一种动态调整稀疏比例的策略,该策略基于奇异值的大小,为每个奇异向量分配不同的稀疏度;3) 使用标准的稀疏化技术(例如,magnitude pruning)对每个奇异向量进行稀疏化。具体的稀疏比例调整策略可以根据实际情况进行调整,例如,可以使用一个简单的线性函数或更复杂的非线性函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ImPart在delta稀疏化任务上取得了state-of-the-art的性能,在相同性能水平下,压缩率比基线方法高2倍。此外,当与现有方法集成时,ImPart在delta量化和模型合并方面也创造了新的state-of-the-art。这些结果证明了ImPart在模型压缩和合并方面的有效性和优越性。

🎯 应用场景

ImPart可广泛应用于各种需要高效模型压缩和合并的场景,例如边缘设备部署、联邦学习、持续学习等。通过减小模型大小,ImPart可以降低存储和传输成本,提高推理速度,并支持在资源受限的环境中部署大型语言模型。此外,ImPart还可以用于模型个性化,通过合并多个特定任务的模型,生成一个能够处理多种任务的通用模型。

📄 摘要(原文)

With the proliferation of task-specific large language models, delta compression has emerged as a method to mitigate the resource challenges of deploying numerous such models by effectively compressing the delta model parameters. Previous delta-sparsification methods either remove parameters randomly or truncate singular vectors directly after singular value decomposition (SVD). However, these methods either disregard parameter importance entirely or evaluate it with too coarse a granularity. In this work, we introduce ImPart, a novel importance-aware delta sparsification approach. Leveraging SVD, it dynamically adjusts sparsity ratios of different singular vectors based on their importance, effectively retaining crucial task-specific knowledge even at high sparsity ratios. Experiments show that ImPart achieves state-of-the-art delta sparsification performance, demonstrating $2\times$ higher compression ratio than baselines at the same performance level. When integrated with existing methods, ImPart sets a new state-of-the-art on delta quantization and model merging.