Activation-Guided Consensus Merging for Large Language Models
作者: Yuxuan Yao, Shuqi Liu, Zehua Liu, Qintong Li, Mingyang Liu, Xiongwei Han, Zhijiang Guo, Han Wu, Linqi Song
分类: cs.CL
发布日期: 2025-05-20 (更新: 2025-11-14)
💡 一句话要点
提出激活引导的共识合并方法ACM,提升大语言模型合并效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型合并 激活引导 互信息 迁移学习 模型优化 神经网络
📋 核心要点
- 现有基于训练和提示的方法在效率和稳定性方面面临挑战,模型合并成为整合不同LLM能力的有前景策略。
- ACM通过激活引导,根据预训练和微调模型激活的互信息确定层特定的合并系数。
- 实验表明,ACM在L2S和通用合并任务上始终优于基线方法,例如显著降低响应长度并提高推理精度。
📝 摘要(中文)
本文提出了一种名为激活引导的共识合并(ACM)的即插即用框架,旨在解决现有模型合并方法忽略神经组件功能异质性的问题。ACM基于预训练和微调模型激活之间的互信息,确定特定层的合并系数,从而有效保留特定任务的能力,而无需梯度计算或额外训练。在长文本到短文本(L2S)和通用合并任务上的大量实验表明,ACM始终优于所有基线方法。例如,对于Qwen-7B模型,配备ACM的TIES-Merging在推理精度提高1.3个百分点的同时,响应长度减少了55.3%。
🔬 方法详解
问题定义:现有模型合并方法通常假设所有层的重要性相同,忽略了神经网络组件固有的功能异质性。这意味着简单地平均或加权平均不同模型的参数可能导致性能下降,尤其是在需要保留特定任务能力的情况下。因此,需要一种能够感知层重要性并自适应地进行模型合并的方法。
核心思路:ACM的核心思路是利用预训练模型和微调模型在不同层上的激活差异来指导模型合并。具体来说,通过计算预训练模型和微调模型在每一层激活之间的互信息,来衡量该层对于特定任务的重要性。互信息越高,表明该层对于保留特定任务能力越重要,因此在合并时应该赋予更高的权重。
技术框架:ACM是一个即插即用的框架,可以与现有的模型合并方法(如TIES-Merging)结合使用。其主要流程如下:1. 使用少量校准数据,分别计算预训练模型和微调模型在每一层的激活值。2. 计算预训练模型和微调模型在每一层激活之间的互信息。3. 基于互信息,计算每一层的合并系数。4. 使用计算得到的合并系数,对预训练模型和微调模型的参数进行加权平均,得到合并后的模型。
关键创新:ACM的关键创新在于使用激活引导的方式来确定层特定的合并系数。与传统的模型合并方法相比,ACM能够更好地感知不同层对于特定任务的重要性,从而更有效地保留特定任务的能力。此外,ACM无需梯度计算或额外训练,具有较高的效率和易用性。
关键设计:ACM的关键设计包括:1. 使用互信息作为衡量层重要性的指标。互信息能够有效地衡量两个随机变量之间的依赖关系,因此可以用于衡量预训练模型和微调模型在每一层激活之间的相关性。2. 使用少量校准数据来计算激活值。校准数据应该具有代表性,能够反映特定任务的特点。3. 将ACM设计为即插即用的框架,可以与现有的模型合并方法结合使用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ACM在长文本到短文本(L2S)和通用合并任务上均优于基线方法。例如,在Qwen-7B模型上,配备ACM的TIES-Merging在推理精度提高1.3个百分点的同时,响应长度减少了55.3%。这表明ACM能够有效地保留特定任务的能力,并提高模型合并的效率。
🎯 应用场景
ACM可应用于各种需要模型合并的场景,例如:1) 将多个在不同任务上微调的模型合并成一个通用模型,提高模型的泛化能力。2) 将预训练模型与在特定领域微调的模型合并,提高模型在该领域的性能。3) 在资源受限的设备上部署大型语言模型,通过模型合并减小模型大小并提高推理速度。未来,ACM可以进一步扩展到多模态模型合并等领域。
📄 摘要(原文)
Recent research has increasingly focused on reconciling the reasoning capabilities of System 2 with the efficiency of System 1. While existing training-based and prompt-based approaches face significant challenges in terms of efficiency and stability, model merging emerges as a promising strategy to integrate the diverse capabilities of different Large Language Models (LLMs) into a unified model. However, conventional model merging methods often assume uniform importance across layers, overlooking the functional heterogeneity inherent in neural components. To address this limitation, we propose \textbf{A}ctivation-Guided \textbf{C}onsensus \textbf{M}erging (\textbf{ACM}), a plug-and-play merging framework that determines layer-specific merging coefficients based on mutual information between activations of pre-trained and fine-tuned models. ACM effectively preserves task-specific capabilities without requiring gradient computations or additional training. Extensive experiments on Long-to-Short (L2S) and general merging tasks demonstrate that ACM consistently outperforms all baseline methods. For instance, in the case of Qwen-7B models, TIES-Merging equipped with ACM achieves a \textbf{55.3\%} reduction in response length while simultaneously improving reasoning accuracy by \textbf{1.3} points.