LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach
作者: Hetarth Chopra, Vidhi Rambhia, Vikram Adve
分类: cs.LG, cs.CL, stat.ML
发布日期: 2025-03-05 (更新: 2025-03-07)
备注: Accepted at ICLR 2025 Workshop: SLLM (Sparsity in Large Language Models)
💡 一句话要点
LEWIS:一种免训练的层级稀疏引导模型合并方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型合并 层级稀疏 任务向量 激活值 层重要性 免训练 大型语言模型
📋 核心要点
- 现有模型合并方法在提升特定任务性能方面存在不足,无法有效利用任务相关信息。
- LEWIS通过激活值评估层重要性,动态调整层级任务向量稀疏度,引导模型合并过程。
- 实验表明,LEWIS在代码指令跟随和数学求解任务上分别提升了4%和11.3%的性能。
📝 摘要(中文)
随着专用大型语言模型(LLMs)日益普及,模型合并方法被用于组合它们,以创建一个无需任何额外数据或训练的单任务模型。然而,当合并的目标是提高下游模型在特定任务基准上的性能时,这些方法就显得不足。本文提出LEWIS(层级稀疏),一个引导模型合并框架,它使用基于激活的层重要性来动态调整合并过程所需的层级任务向量稀疏性。LEWIS使用校准数据集来优先考虑模型合并所需的任务向量剪枝过程中的关键层。这种方法通过保留必要的层级任务特定知识来指导现有的合并方法,同时确保合并后的模型在类似于校准数据集的基准测试中表现最佳。实验表明,LEWIS的有效性体现在通过模型合并创建的代码指令跟随和数学求解模型分别提高了高达4%和11.3%的性能,优于使用统一稀疏性的无引导数据模型合并方法。
🔬 方法详解
问题定义:现有模型合并方法在提升特定任务性能时,无法有效区分不同层对任务的重要性,导致合并后的模型在目标任务上的表现提升有限。这些方法通常采用统一的稀疏性策略,忽略了不同层对特定任务的贡献差异。
核心思路:LEWIS的核心思想是利用校准数据集,通过分析模型在各层上的激活值,评估每一层对于特定任务的重要性。然后,根据层的重要性动态调整任务向量的稀疏度,在合并过程中更加关注重要的层,从而保留更多与目标任务相关的知识。
技术框架:LEWIS框架主要包含以下几个步骤:1) 使用校准数据集运行待合并的模型,记录每一层的激活值;2) 基于激活值计算每一层的重要性得分;3) 根据层的重要性得分,动态调整任务向量的稀疏度;4) 使用调整后的稀疏度进行模型合并。
关键创新:LEWIS的关键创新在于提出了一种基于激活值的层重要性评估方法,并将其应用于模型合并过程中的任务向量剪枝。与传统的统一稀疏性方法相比,LEWIS能够更加有效地保留与目标任务相关的知识,从而提升合并后模型的性能。
关键设计:LEWIS使用校准数据集来计算层的重要性得分。激活值的统计量(例如平均值、方差)可以作为层重要性的指标。任务向量的稀疏度可以根据层的重要性得分进行调整,例如,重要性高的层采用较低的稀疏度,而重要性低的层采用较高的稀疏度。具体的稀疏度调整策略可以根据实际情况进行选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LEWIS在代码指令跟随和数学求解任务上分别取得了显著的性能提升。在代码指令跟随任务上,LEWIS将性能提升了高达4%。在数学求解任务上,LEWIS将性能提升了高达11.3%,显著优于使用统一稀疏性的无引导数据模型合并方法。这些结果验证了LEWIS在提升特定任务性能方面的有效性。
🎯 应用场景
LEWIS可应用于各种需要模型合并的场景,例如,将多个在不同领域训练的模型合并成一个多任务模型,或者将多个在不同数据集上训练的模型合并成一个泛化能力更强的模型。该方法尤其适用于资源受限的场景,因为它可以免去额外的训练数据和训练过程,从而降低了模型开发的成本。
📄 摘要(原文)
As specialized large language models (LLMs) become increasingly prevalent, model merging methods are being used to combine them to create a single multi-task model without requiring any additional data or training. However, these approaches fall short when the objective of merging is to increase the downstream model's performance on a particular task-specific benchmark. In this work, we propose LEWIS (Layer Wise Sparsity), a guided model-merging framework that uses activation-based layer importance to dynamically adjust layer-wise task-vector sparsity required for the merge process. LEWIS uses a calibration dataset to prioritize critical layers during the task-vector pruning process required for model merging. This approach guides existing merging methods by preserving essential layer-wise task-specific knowledge while ensuring the merged model performs the best at benchmarks resembling the calibration dataset. Our experiments demonstrate the effectiveness of LEWIS with performance improvements of code instruction-following and math-solving models created through model merging up to 4 percent and 11.3 percent, respectively, outperforming unguided data-less model merging approaches that use uniform-sparsity.