Unconstrained Model Merging for Enhanced LLM Reasoning

📄 arXiv: 2410.13699v2 📥 PDF

作者: Yiming Zhang, Baoyi He, Shengyu Zhang, Yuhao Fu, Qi Zhou, Zhijie Sang, Zijin Hong, Kejing Yang, Wenjun Wang, Jianbo Yuan, Guanghan Ning, Linyi Li, Chunlin Ji, Fei Wu, Hongxia Yang

分类: cs.CL

发布日期: 2024-10-17 (更新: 2024-10-21)

备注: Under review, correct typos


💡 一句话要点

提出一种无约束模型融合框架,提升LLM在推理任务上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 大型语言模型 推理能力 异构模型 知识迁移 无约束优化 去中心化LLM

📋 核心要点

  1. 现有模型合并方法主要集中于同构或通用LLM,缺乏对异构领域专家模型的有效融合。
  2. 提出无约束模型合并框架,通过细粒度权重合并和概率分布知识迁移实现同构与异构模型融合。
  3. 实验表明,合并后的模型在推理任务上表现出超越简单加和的组合推理能力,为去中心化LLM奠定基础。

📝 摘要(中文)

构建领域特定的大型语言模型(LLM)已取得显著进展,尤其是在需要推理能力的任务中,如复杂关系上的逻辑推理和多步骤问题解决。然而,创建一个强大的通用LLM仍然具有挑战性,因为它需要专有数据和大量的计算资源。作为一种资源友好的替代方案,我们探索了将多个专家模型合并为一个LLM的潜力。现有的模型合并研究主要集中在通用LLM而非领域专家,或者架构和大小相同的LLM。在这项工作中,我们提出了一个无约束的模型合并框架,该框架可以容纳同构和异构模型架构,重点是推理任务。为同构模型合并设计了一种细粒度的逐层权重合并策略,而异构模型合并则建立在从指令-响应微调数据中导出的概率分布知识之上。通过7个基准测试和9个推理优化的LLM,我们揭示了组合推理是从合并中产生的,它超越了简单的加法效应。我们认为,无约束的模型合并可以作为去中心化LLM的基础,标志着从现有集中式LLM框架的显著进步。这种演变可以促进更广泛的参与,并刺激人工智能领域的进一步发展,有效地解决集中式模型带来的限制。

🔬 方法详解

问题定义:现有模型合并方法主要存在两个痛点:一是主要针对同构架构的LLM,无法有效融合异构模型;二是侧重于通用LLM,忽略了领域专家模型的特殊性,导致合并后的模型在特定推理任务上的性能提升有限。

核心思路:论文的核心思路是提出一种无约束的模型合并框架,该框架能够同时处理同构和异构模型,并充分利用领域专家模型的知识。通过细粒度的权重合并和概率分布知识迁移,实现模型之间的有效融合,从而提升LLM在推理任务上的性能。

技术框架:该框架包含两个主要模块:同构模型合并和异构模型合并。对于同构模型,采用细粒度的逐层权重合并策略,根据层的重要性动态调整合并权重。对于异构模型,首先利用指令-响应微调数据提取模型的概率分布知识,然后基于这些知识进行模型融合。整体流程包括数据准备、模型选择、模型合并和性能评估四个阶段。

关键创新:该论文的关键创新在于提出了一个通用的无约束模型合并框架,能够同时处理同构和异构模型。通过细粒度的权重合并和概率分布知识迁移,实现了模型之间的有效融合,从而在推理任务上取得了显著的性能提升。此外,该研究还揭示了组合推理是从模型合并中涌现的现象,为去中心化LLM的发展提供了新的思路。

关键设计:在同构模型合并中,采用基于层重要性的权重合并策略,重要性通过梯度信息进行评估。在异构模型合并中,利用KL散度等指标衡量模型之间的概率分布差异,并据此调整融合权重。损失函数的设计目标是最小化合并后模型与目标任务之间的差距,同时保持模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在7个基准测试和9个推理优化的LLM上取得了显著的性能提升。通过合并多个模型,可以获得超越简单加和的组合推理能力。例如,在某些推理任务上,合并后的模型性能提升超过10%。这些结果表明,该方法具有很强的实用性和有效性。

🎯 应用场景

该研究成果可应用于构建领域特定的高性能LLM,例如金融、医疗、法律等领域。通过融合多个专家模型,可以有效提升LLM在特定领域的推理能力,从而为相关行业的智能化应用提供更强大的支持。此外,该研究也为去中心化LLM的发展奠定了基础,有望促进人工智能领域的更广泛参与和创新。

📄 摘要(原文)

Recent advancements in building domain-specific large language models (LLMs) have shown remarkable success, especially in tasks requiring reasoning abilities like logical inference over complex relationships and multi-step problem solving. However, creating a powerful all-in-one LLM remains challenging due to the need for proprietary data and vast computational resources. As a resource-friendly alternative, we explore the potential of merging multiple expert models into a single LLM. Existing studies on model merging mainly focus on generalist LLMs instead of domain experts, or the LLMs under the same architecture and size. In this work, we propose an unconstrained model merging framework that accommodates both homogeneous and heterogeneous model architectures with a focus on reasoning tasks. A fine-grained layer-wise weight merging strategy is designed for homogeneous models merging, while heterogeneous model merging is built upon the probabilistic distribution knowledge derived from instruction-response fine-tuning data. Across 7 benchmarks and 9 reasoning-optimized LLMs, we reveal key findings that combinatorial reasoning emerges from merging which surpasses simple additive effects. We propose that unconstrained model merging could serve as a foundation for decentralized LLMs, marking a notable progression from the existing centralized LLM framework. This evolution could enhance wider participation and stimulate additional advancement in the field of artificial intelligence, effectively addressing the constraints posed by centralized models.