Exploring Model Kinship for Merging Large Language Models
作者: Yedi Hu, Yunzhi Yao, Ningyu Zhang, Huajun Chen, Shumin Deng
分类: cs.CL, cs.AI, cs.CV, cs.LG, cs.MA
发布日期: 2024-10-16 (更新: 2025-09-23)
备注: EMNLP 2025 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于模型亲缘性的Top-k贪婪合并策略,提升大语言模型合并效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型合并 模型亲缘性 贪婪算法 模型进化
📋 核心要点
- 现有模型合并方法缺乏对合并收益和潜在因素的深入理解,阻碍了模型进化的效率。
- 论文提出模型亲缘性的概念,类比生物进化,指导模型合并过程,避免局部最优。
- 实验表明,基于模型亲缘性的Top-k贪婪合并策略能够有效提升模型合并后的性能。
📝 摘要(中文)
模型合并已成为增强大型语言模型(LLM)能力和效率的关键技术。开源社区通过迭代合并现有模型来推动模型进化,但对于模型合并的收益和潜在因素的原理性理解仍然有限。本文通过迭代合并研究模型进化,类比生物进化,并引入模型亲缘性的概念,即LLM之间相似或相关程度。通过全面的实证分析,表明模型亲缘性与合并所实现的性能改进密切相关,为选择候选模型提供了有用的标准。在此基础上,提出了一种新的模型合并策略:基于模型亲缘性的Top-k贪婪合并,可以提高基准性能。具体来说,发现将模型亲缘性作为指导标准可以实现连续合并,同时减轻由局部最优引起的性能下降,从而促进更有效的模型进化。代码可在https://github.com/zjunlp/ModelKinship获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)合并过程中,如何选择合适的模型进行合并,以最大化合并后模型的性能提升。现有方法在选择合并模型时缺乏理论指导,容易陷入局部最优,导致合并后的模型性能下降。
核心思路:论文的核心思路是借鉴生物进化中的“亲缘性”概念,认为具有较高“亲缘性”的模型合并后更容易产生性能提升。通过计算模型之间的相似度(即模型亲缘性),并以此作为指导,选择最合适的模型进行合并,从而避免盲目合并带来的性能损失。
技术框架:论文提出的Top-k贪婪合并框架主要包含以下几个阶段:1) 模型亲缘性计算:计算候选模型之间的亲缘性得分。2) Top-k选择:基于亲缘性得分,选择与当前模型亲缘性最高的Top-k个模型。3) 模型合并:将选定的Top-k个模型与当前模型进行合并。4) 性能评估:评估合并后模型的性能,并选择性能最佳的模型作为下一轮合并的起点。重复上述步骤,直到达到预定的合并轮数或性能收敛。
关键创新:论文最重要的技术创新点在于引入了“模型亲缘性”的概念,并将其作为模型合并的指导原则。与现有方法相比,该方法不再依赖于经验或随机选择,而是通过量化模型之间的相似度,为模型合并提供了理论依据。此外,Top-k贪婪合并策略能够有效避免局部最优,实现更有效的模型进化。
关键设计:模型亲缘性的计算方式是关键设计之一。论文可能采用了多种方法来衡量模型之间的相似度,例如基于模型权重、输出分布或中间层表示的相似度计算。Top-k的选择策略也至关重要,需要平衡计算复杂度和性能提升。此外,模型合并的具体方法(例如权重平均、线性插值等)也会影响最终的合并效果。
🖼️ 关键图片
📊 实验亮点
论文提出的基于模型亲缘性的Top-k贪婪合并策略在多个基准测试中取得了显著的性能提升。具体而言,该方法能够有效地避免局部最优,实现持续的性能增长,并且在相同合并轮数下,性能优于传统的模型合并方法。具体的性能提升幅度和对比基线需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要模型合并的场景,例如:1) 快速构建特定领域的定制化LLM;2) 在资源受限的环境下,通过合并多个小型模型来获得高性能;3) 持续进化LLM,不断提升其性能和泛化能力。该方法有助于降低模型训练成本,加速LLM的迭代和发展。
📄 摘要(原文)
Model merging has emerged as a key technique for enhancing the capabilities and efficiency of Large Language Models (LLMs). The open-source community has driven model evolution by iteratively merging existing models, yet a principled understanding of the gains and underlying factors in model merging remains limited. In this work, we study model evolution through iterative merging, drawing an analogy to biological evolution, and introduce the concept of model kinship, the degree of similarity or relatedness between LLMs. Through comprehensive empirical analysis, we show that model kinship is closely linked to the performance improvements achieved by merging, providing a useful criterion for selecting candidate models. Building on this insight, we propose a new model merging strategy: Top-k Greedy Merging with Model Kinship, which can improve benchmark performance. Specifically, we discover that incorporating model kinship as a guiding criterion enables continuous merging while mitigating performance degradation caused by local optima, thereby facilitating more effective model evolution. Code is available at https://github.com/zjunlp/ModelKinship.