Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

作者: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li

分类: cs.CL

发布日期: 2024-08-06

备注: 17 pages

💡 一句话要点

提出WIDEN方法，通过权重解耦实现微调与预训练大语言模型的有效融合

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 模型融合 大语言模型 权重解耦 预训练模型 微调模型 多语言能力 知识迁移

📋 核心要点

现有模型融合方法难以有效融合参数变化差异大的微调和预训练大语言模型。
WIDEN方法将模型权重解耦为幅度和方向，自适应地融合不同模型的优势能力。
实验表明WIDEN能成功融合Qwen1.5-Chat和Sailor，提升模型的多语言能力和综合性能。

📝 摘要（中文）

本文旨在扩展模型融合技术的适用范围，使其能够融合微调（FT）和预训练（PT）的大语言模型（LLM）。现有方法通常手动分配模型重要性，仅适用于参数变化相似的LLM，如多个FT LLM。FT和PT LLM之间参数变化范围的差异给确定最佳组合带来了挑战。本文提出了一种基于权重解耦（WIDEN）的方法，将模型权重分解为幅度和方向分量，然后考虑各自的贡献进行自适应融合。实验结果表明，现有方法在融合PT LLM时通常失效，而WIDEN成功地将Sailor的多语言能力注入到Qwen1.5-Chat中，并使其精通东南亚语言，从而增强了基本能力。此外，WIDEN在融合多个13B FT LLM时，实现了指令跟随、数学推理和代码生成技能的平衡融合。

🔬 方法详解

问题定义：现有模型融合方法在融合微调（FT）和预训练（PT）大语言模型时面临挑战。由于FT模型和PT模型之间的参数变化范围差异很大，现有方法难以确定最佳的融合权重，导致融合后的模型要么丧失所有能力，要么只能保留其中一个模型的能力。现有方法主要针对参数变化相似的FT模型，无法有效处理PT模型带来的参数分布差异。

核心思路：本文的核心思路是将模型权重解耦为幅度和方向两个分量。幅度代表权重的大小，方向代表权重的更新方向。通过分别考虑幅度和方向的贡献，可以更精细地控制模型的融合过程。幅度可以反映模型的重要性，方向可以反映模型的特定能力。这种解耦的方式能够更好地适应FT模型和PT模型之间的参数差异，从而实现更有效的模型融合。

技术框架：WIDEN方法的整体框架包括以下几个步骤：1) 权重解耦：将每个模型的权重分解为幅度和方向两个分量。2) 自适应融合：根据幅度和方向的贡献，自适应地融合不同模型的权重。具体来说，对于幅度分量，可以使用加权平均的方式进行融合，权重可以根据模型的性能进行调整。对于方向分量，可以使用向量加权平均的方式进行融合，权重可以根据模型的相似度进行调整。3) 模型重构：将融合后的幅度和方向分量重新组合成模型权重。

关键创新：WIDEN方法最重要的技术创新点在于权重解耦的思想。通过将模型权重分解为幅度和方向两个分量，可以更精细地控制模型的融合过程，从而更好地适应FT模型和PT模型之间的参数差异。这种解耦的方式能够有效地保留和融合不同模型的优势能力，避免了现有方法中出现的模型能力丧失问题。

关键设计：在权重解耦方面，可以使用简单的L2范数来计算权重的幅度，使用单位向量来表示权重的方向。在自适应融合方面，可以使用交叉验证的方式来确定幅度和方向的融合权重。此外，还可以引入一些正则化项来防止模型过拟合，例如权重衰减或dropout。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WIDEN方法成功地将Sailor的多语言能力注入到Qwen1.5-Chat中，使其精通东南亚语言，并在基础能力上有所提升。与现有方法相比，WIDEN能够更好地保留和融合不同模型的优势能力，避免了模型能力丧失的问题。在融合多个13B FT LLM时，WIDEN实现了指令跟随、数学推理和代码生成技能的平衡融合。

🎯 应用场景

该研究成果可应用于构建具备多语言能力、特定领域知识或多种技能的通用大语言模型。例如，可以将一个擅长指令跟随的模型与一个擅长数学推理的模型融合，得到一个既能理解人类指令又能进行复杂计算的模型。此外，该方法还可以用于模型的持续学习和知识迁移，将新知识或技能融入到现有模型中，而无需从头开始训练。

📄 摘要（原文）

Merging Large Language Models (LLMs) aims to amalgamate multiple homologous LLMs into one with all the capabilities. Ideally, any LLMs sharing the same backbone should be mergeable, irrespective of whether they are Fine-Tuned (FT) with minor parameter changes or Pre-Trained (PT) with substantial parameter shifts. However, existing methods often manually assign the model importance, rendering them feasible only for LLMs with similar parameter alterations, such as multiple FT LLMs. The diverse parameter changed ranges between FT and PT LLMs pose challenges for current solutions in empirically determining the optimal combination. In this paper, we make a pioneering effort to broaden the applicability of merging techniques from FT to PT LLMs. We initially examine the efficacy of current methods in merging FT and PT LLMs, discovering that they struggle to deal with PT LLMs. Subsequently, we introduce an approach based on WeIght DisENtanglement (WIDEN) to effectively extend the merging scope, which first disentangles model weights into magnitude and direction components, and then performs adaptive fusion by considering their respective contributions. In the experiments, we merge Qwen1.5-Chat (an FT LLM with instruction-following skills) with Sailor (a PT LLM with multilingual abilities) across 7B and 14B model scales. Results reveal that: (1) existing solutions usually fail when merging Sailor, either losing both abilities or only retaining instruction-following skills; (2) WIDEN successfully injects the multilingual abilities of Sailor into Qwen1.5-Chat and make it proficient in Southeast Asian languages, achieving enhancements in the fundamental capabilities. In light of previous research, we also merge multiple 13B FT LLMs and observe that WIDEN achieves a balanced amalgamation of instruction following, mathematical reasoning, and code generation skills.

Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理