Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild

📄 arXiv: 2410.05357v2 📥 PDF

作者: Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-07 (更新: 2024-12-05)

备注: 24 pages, 4 figures, accepted to NeurIPS 2024 Datasets and Benchmarks Track

🔗 代码/项目: GITHUB


💡 一句话要点

Model-GLUE:面向大规模模型库的普适性LLM扩展方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型扩展 模型合并 混合专家 模型聚类 异构模型聚合

📋 核心要点

  1. 现有LLM扩展方法在组合异构模型时存在性能下降问题,缺乏对不同架构和初始化模型的有效聚合策略。
  2. Model-GLUE通过基准测试、模型聚类、策略选择和模型混合,实现了异构模型库的最佳聚合。
  3. 实验表明,Model-GLUE在Llama-2模型库上实现了平均5.61%的性能提升,且无需额外训练。

📝 摘要(中文)

随着大型语言模型(LLM)在各种任务和专业领域表现出色,基于现有模型扩展LLM引起了广泛关注。然而,当组合不同的模型时,性能下降是一个挑战。目前已提出了多种用于聚合预训练LLM的技术,包括模型合并、混合专家(Mixture-of-Experts)和堆叠。尽管这些方法各有优点,但尚未对它们进行全面的比较,也缺乏将它们协同应用于多样化模型库的实践。针对这一研究空白,本文提出了Model-GLUE,一个整体的LLM扩展指南。首先,我们的工作对现有的LLM扩展技术进行了基准测试,特别是选择性合并和混合变体。利用基准测试结果的见解,我们制定了一个最佳策略,用于选择和聚合具有不同架构和初始化的异构模型库。我们的方法包括对可合并模型进行聚类和选择最佳合并策略,并通过模型混合集成聚类。最后,通过我们在基于Llama-2的多样化模型库上的实验证明,Model-GLUE在没有额外训练的情况下,平均性能提升了5.61%。代码可在https://github.com/Model-GLUE/Model-GLUE获取。

🔬 方法详解

问题定义:论文旨在解决如何有效地扩展大型语言模型,特别是当模型库中存在具有不同架构和初始化的异构模型时。现有方法,如模型合并、混合专家和堆叠,在处理异构模型时性能提升有限,缺乏系统性的比较和协同应用策略。

核心思路:Model-GLUE的核心思路是通过基准测试确定最佳的扩展策略,然后对模型进行聚类,选择合适的合并策略,最后通过模型混合将不同的模型簇集成起来。这种方法旨在充分利用不同模型的优势,避免简单合并导致的性能下降。

技术框架:Model-GLUE的整体框架包括以下几个主要阶段:1) 对现有LLM扩展技术进行基准测试,特别是选择性合并和混合变体;2) 基于基准测试结果,对模型库中的模型进行聚类,将相似的模型归为一类;3) 为每个模型簇选择最佳的合并策略;4) 通过模型混合将不同的模型簇集成起来,形成最终的扩展模型。

关键创新:Model-GLUE的关键创新在于其系统性的异构模型聚合方法。它不仅比较了不同的扩展技术,还提出了模型聚类和策略选择的概念,从而能够根据模型的特性选择最合适的扩展方式。此外,Model-GLUE无需额外的训练即可实现性能提升,降低了扩展成本。

关键设计:论文的关键设计包括:1) 使用基准测试来评估不同扩展技术的性能;2) 基于模型架构和初始化等因素对模型进行聚类;3) 根据模型簇的特性选择最佳的合并策略,例如,对于相似的模型,可以选择直接合并,而对于差异较大的模型,可以选择混合专家;4) 使用模型混合技术将不同的模型簇集成起来,例如,可以使用加权平均或门控机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Model-GLUE在基于Llama-2的多样化模型库上进行了实验,结果表明,该方法在没有额外训练的情况下,平均性能提升了5.61%。这一结果表明,Model-GLUE能够有效地聚合异构模型,提升LLM的整体性能。

🎯 应用场景

Model-GLUE可应用于各种需要扩展LLM能力的场景,例如,可以用于构建特定领域的专家模型,或者用于提升现有LLM在特定任务上的性能。该方法降低了LLM扩展的门槛,使得研究人员和开发者能够更方便地利用现有的模型资源,构建更强大的LLM应用。

📄 摘要(原文)

As Large Language Models (LLMs) excel across tasks and specialized domains, scaling LLMs based on existing models has garnered significant attention, which faces the challenge of decreasing performance when combining disparate models. Various techniques have been proposed for the aggregation of pre-trained LLMs, including model merging, Mixture-of-Experts, and stacking. Despite their merits, a comprehensive comparison and synergistic application of them to a diverse model zoo is yet to be adequately addressed. In light of this research gap, this paper introduces Model-GLUE, a holistic LLM scaling guideline. First, our work starts with a benchmarking of existing LLM scaling techniques, especially selective merging, and variants of mixture. Utilizing the insights from the benchmark results, we formulate an optimal strategy for the selection and aggregation of a heterogeneous model zoo characterizing different architectures and initialization.Our methodology involves the clustering of mergeable models and optimal merging strategy selection, and the integration of clusters through a model mixture. Finally, evidenced by our experiments on a diverse Llama-2-based model zoo, Model-GLUE shows an average performance enhancement of 5.61%, achieved without additional training. Codes are available at: https://github.com/Model-GLUE/Model-GLUE.