Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

📄 arXiv: 2502.04411v2 📥 PDF

作者: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-06 (更新: 2025-02-11)

备注: work in progress. arXiv admin note: text overlap with arXiv:2405.09673 by other authors


💡 一句话要点

Mediator:通过参数冲突感知和不确定性路由实现高效LLM融合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 参数冲突 专家路由 任务算术 不确定性 大型语言模型 分层融合

📋 核心要点

  1. 模型融合面临参数冲突问题,导致性能下降,而模型路由虽能缓解冲突,但成本过高且未能充分利用模型间的通用知识。
  2. Mediator通过观察不同层的参数冲突程度,对低冲突层进行平均融合,对高冲突层采用任务级专家路由,从而优化融合策略。
  3. 该方法通过解耦稠密和稀疏专家降低存储成本,并根据任务不确定性自适应选择专家,实验证明其性能优于现有方法。

📝 摘要(中文)

模型融合旨在将针对不同任务微调的大型语言模型(LLM)聚合为一个更强大的模型。然而,模型间的参数冲突会导致平均融合后的性能下降。模型路由通过在推理时选择特定模型来解决此问题,但会带来过高的存储和计算成本,并且无法充分利用不同模型的通用知识。本文观察到不同层表现出不同程度的参数冲突。基于此,我们平均融合参数冲突最小的层,并对冲突显著的层采用一种新颖的任务级专家路由。为了进一步降低存储成本,受任务算术稀疏性的启发,我们将多个微调专家解耦为一个稠密专家和几个稀疏专家。考虑到分布外样本,我们基于输入数据的任务不确定性选择和融合合适的专家。我们在具有不同参数规模的LLaMA和Qwen上进行了大量实验,并在真实世界的推理任务上进行了评估。结果表明,与现有方法相比,我们的方法在降低系统成本的同时,始终能够实现显著的性能提升。

🔬 方法详解

问题定义:模型融合旨在结合多个在不同任务上微调的LLM,但直接平均参数会导致参数冲突,降低模型性能。模型路由虽然能避免冲突,但需要存储多个完整模型,计算成本也较高。现有方法未能有效平衡性能、存储和计算成本。

核心思路:Mediator的核心思想是根据不同层之间的参数冲突程度,采取不同的融合策略。对于参数冲突小的层,直接进行平均融合,以利用模型的通用知识;对于参数冲突大的层,则采用任务级别的专家路由,选择最适合当前任务的专家模型。此外,通过解耦稠密和稀疏专家,进一步降低存储成本。

技术框架:Mediator包含以下几个主要模块:1) 参数冲突评估:评估不同层之间的参数冲突程度。2) 分层融合:根据参数冲突评估结果,对低冲突层进行平均融合,对高冲突层进行专家路由。3) 专家解耦:将多个微调专家解耦为一个稠密专家和多个稀疏专家,降低存储成本。4) 不确定性路由:根据输入数据的任务不确定性,选择合适的专家进行融合。

关键创新:Mediator的关键创新在于:1) 提出了一种基于参数冲突的分层融合策略,能够有效平衡性能和计算成本。2) 引入了任务级别的专家路由,能够根据任务选择最合适的专家模型。3) 提出了专家解耦方法,显著降低了存储成本。4) 考虑了分布外样本,并根据任务不确定性自适应选择专家。

关键设计:参数冲突评估可以通过计算不同模型在每一层参数的余弦相似度来实现。任务级别的专家路由可以通过训练一个路由网络来实现,该网络根据输入数据的特征,预测每个专家的权重。专家解耦可以通过任务算术稀疏性来实现,即只保留每个专家模型中与特定任务相关的参数。不确定性路由可以通过计算输入数据的熵来实现,熵越高,表示模型对该输入的预测越不确定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mediator在LLaMA和Qwen等大型语言模型上均取得了显著的性能提升。例如,在某些推理任务上,Mediator的性能比直接平均融合的方法提高了5%以上,同时存储成本降低了30%以上。此外,Mediator在分布外样本上的表现也优于现有方法,证明了其鲁棒性。

🎯 应用场景

Mediator可应用于各种需要模型融合的场景,例如多任务学习、领域自适应和持续学习。它可以将多个在不同任务或领域上训练的模型融合为一个更强大的模型,从而提高模型的泛化能力和鲁棒性。此外,Mediator的低存储成本特性使其非常适合部署在资源受限的设备上,例如移动设备和嵌入式系统。

📄 摘要(原文)

Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.