ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs

作者: Yan Yang, Yixia Li, Hongru Wang, Xuetao Wei, Jianqiao Yu, Yun Chen, Guanhua Chen

分类: cs.CL

发布日期: 2025-04-17

💡 一句话要点

ImPart：面向LLM的基于重要性的Delta稀疏化方法，提升模型压缩与合并效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型压缩 delta稀疏化 奇异值分解 模型合并

📋 核心要点

现有delta稀疏化方法忽略参数重要性或评估粒度过粗，导致压缩性能受限。
ImPart利用SVD，根据奇异向量的重要性动态调整稀疏比例，保留关键任务知识。
实验表明，ImPart在delta稀疏化、量化和模型合并方面均优于现有方法，压缩率提升显著。

📝 摘要（中文）

随着特定任务的大型语言模型激增，delta压缩已成为缓解部署大量此类模型所带来的资源挑战的一种方法，它能有效压缩delta模型参数。以往的delta稀疏化方法要么随机移除参数，要么在奇异值分解（SVD）后直接截断奇异向量。然而，这些方法要么完全忽略了参数的重要性，要么以过于粗糙的粒度评估其重要性。本文提出了一种新颖的、基于重要性的delta稀疏化方法ImPart。它利用SVD，根据不同奇异向量的重要性动态调整其稀疏比例，即使在高稀疏度下也能有效保留关键的特定任务知识。实验表明，ImPart实现了最先进的delta稀疏化性能，在相同性能水平下，压缩率比基线方法高2倍。当与现有方法集成时，ImPart在delta量化和模型合并方面创造了新的state-of-the-art。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）的delta压缩问题，特别是在模型微调后，如何高效地压缩delta参数，以便于存储和传输。现有方法，如随机稀疏化和基于SVD的截断，要么忽略了参数的重要性，要么以粗粒度的方式处理，导致压缩率和性能之间难以取得平衡。这些方法无法有效保留特定任务的关键知识，尤其是在高压缩率下，模型性能下降明显。

核心思路：ImPart的核心思路是基于参数的重要性进行delta稀疏化。它认为不同的delta参数对模型性能的贡献不同，因此应该根据其重要性差异化地进行稀疏化。具体来说，ImPart利用SVD将delta参数分解为一系列奇异向量，然后根据每个奇异向量的重要性（例如，对应的奇异值大小）动态调整其稀疏比例。更重要的奇异向量保留更多参数，而不太重要的奇异向量则进行更激进的稀疏化。

技术框架：ImPart的技术框架主要包括以下几个步骤：1) 对delta参数进行奇异值分解（SVD），得到奇异向量和奇异值；2) 根据奇异值计算每个奇异向量的重要性权重；3) 根据重要性权重动态调整每个奇异向量的稀疏比例；4) 对每个奇异向量进行稀疏化，得到稀疏的delta参数。整个过程旨在保留重要的任务特定知识，同时实现高压缩率。

关键创新：ImPart最重要的技术创新点在于其重要性感知的稀疏化策略。与传统的随机稀疏化或直接截断奇异向量的方法不同，ImPart能够根据每个奇异向量的重要性动态调整其稀疏比例，从而更有效地保留关键信息。这种方法能够在高压缩率下显著提升模型性能，并优于现有技术。

关键设计：ImPart的关键设计包括：1) 使用奇异值作为奇异向量重要性的度量；2) 设计了一种动态调整稀疏比例的策略，该策略基于奇异值的大小，为每个奇异向量分配不同的稀疏度；3) 使用标准的稀疏化技术（例如，magnitude pruning）对每个奇异向量进行稀疏化。具体的稀疏比例调整策略可以根据实际情况进行调整，例如，可以使用一个简单的线性函数或更复杂的非线性函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ImPart在delta稀疏化任务上取得了state-of-the-art的性能，在相同性能水平下，压缩率比基线方法高2倍。此外，当与现有方法集成时，ImPart在delta量化和模型合并方面也创造了新的state-of-the-art。这些结果证明了ImPart在模型压缩和合并方面的有效性和优越性。

🎯 应用场景

ImPart可广泛应用于各种需要高效模型压缩和合并的场景，例如边缘设备部署、联邦学习、持续学习等。通过减小模型大小，ImPart可以降低存储和传输成本，提高推理速度，并支持在资源受限的环境中部署大型语言模型。此外，ImPart还可以用于模型个性化，通过合并多个特定任务的模型，生成一个能够处理多种任务的通用模型。

📄 摘要（原文）

With the proliferation of task-specific large language models, delta compression has emerged as a method to mitigate the resource challenges of deploying numerous such models by effectively compressing the delta model parameters. Previous delta-sparsification methods either remove parameters randomly or truncate singular vectors directly after singular value decomposition (SVD). However, these methods either disregard parameter importance entirely or evaluate it with too coarse a granularity. In this work, we introduce ImPart, a novel importance-aware delta sparsification approach. Leveraging SVD, it dynamically adjusts sparsity ratios of different singular vectors based on their importance, effectively retaining crucial task-specific knowledge even at high sparsity ratios. Experiments show that ImPart achieves state-of-the-art delta sparsification performance, demonstrating $2\times$ higher compression ratio than baselines at the same performance level. When integrated with existing methods, ImPart sets a new state-of-the-art on delta quantization and model merging.

ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理