Fine, I'll Merge It Myself: A Multi-Fidelity Framework for Automated Model Merging

📄 arXiv: 2502.04030v2 📥 PDF

作者: Guinan Su, Jonas Geiping

分类: cs.AI, cs.LG

发布日期: 2025-02-06 (更新: 2025-06-25)


💡 一句话要点

提出多保真度模型自动融合框架,提升大语言模型推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 自动化搜索 多保真度 大语言模型 推理能力 单/多目标优化 逐层融合 深度方向集成

📋 核心要点

  1. 现有模型融合方法依赖手动设计的超参数策略,限制了模型组合的探索,且需要大量人工干预。
  2. 论文提出自动模型融合框架,通过多保真度近似降低成本,实现细粒度融合策略探索,支持单/多目标优化。
  3. 实验表明,该方法能自主找到提升单目标性能,优化多目标任务的融合策略,且计算成本较低。

📝 摘要(中文)

推理能力是大语言模型(LLMs)的关键前沿,但开发需要大量的专有数据集和计算资源。模型融合提供了一种有前景的替代方案,它无需重新训练即可组合多个模型,从而有效地补充能力。然而,当前的融合方法依赖于手动设计的超参数融合策略,限制了潜在模型组合的探索,并需要大量的人工干预。我们提出了一个自动模型融合框架,该框架通过多保真度近似降低成本,从而能够细粒度地探索融合策略。我们支持单目标和多目标优化,并引入了两种新的搜索空间:逐层融合(LFS)和深度方向集成(DIS)。通过多个基准测试的评估,我们发现该搜索能够自主地找到:1)进一步提高单目标性能的融合,即使是在模型已经微调过的任务上;2)优化跨任务的多目标前沿的融合。在有限的计算资源下,例如在不到500个搜索步骤内,就能找到有效的融合。

🔬 方法详解

问题定义:现有模型融合方法依赖于手动设计的超参数融合策略,这限制了对潜在模型组合的探索,并且需要大量的人工干预。因此,如何自动化地探索和优化模型融合策略,以提升大语言模型的推理能力,是一个亟待解决的问题。

核心思路:论文的核心思路是利用自动搜索算法,在预定义的搜索空间中,寻找最优的模型融合策略。通过多保真度近似,在搜索的早期阶段使用低保真度的评估,从而降低计算成本,加速搜索过程。同时,支持单目标和多目标优化,以满足不同的应用需求。

技术框架:该自动模型融合框架主要包含以下几个模块:1) 搜索空间定义:定义了两种新的搜索空间,即逐层融合(LFS)和深度方向集成(DIS),用于探索不同的模型融合方式。2) 搜索算法:使用现有的搜索算法(具体算法未知)在搜索空间中寻找最优的融合策略。3) 多保真度评估:使用多保真度近似来评估不同融合策略的性能,从而降低计算成本。4) 优化目标:支持单目标和多目标优化,可以根据具体的应用需求选择不同的优化目标。

关键创新:该论文的关键创新在于提出了一个自动化的模型融合框架,该框架能够自主地探索和优化模型融合策略,而无需人工干预。此外,论文还提出了两种新的搜索空间,即逐层融合(LFS)和深度方向集成(DIS),为模型融合提供了更多的可能性。

关键设计:关于关键设计,论文中提到支持单目标和多目标优化,但没有详细说明具体的优化目标函数。此外,论文中提到了多保真度近似,但没有详细说明具体的实现方式。搜索算法的具体选择也未知。LFS和DIS两种搜索空间的具体定义方式也需要进一步研究论文才能明确。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该自动模型融合框架能够自主地找到进一步提高单目标性能的融合策略,即使是在模型已经微调过的任务上。此外,该框架还能够优化跨任务的多目标前沿。更重要的是,有效的融合策略可以在有限的计算资源下找到,例如在不到500个搜索步骤内。

🎯 应用场景

该研究成果可应用于各种需要提升大语言模型推理能力的场景,例如智能客服、机器翻译、文本摘要等。通过自动模型融合,可以有效地利用已有的模型资源,无需重新训练即可获得性能更优的模型,从而降低开发成本,加速产品迭代。未来,该技术有望应用于更广泛的AI领域,例如图像识别、语音识别等。

📄 摘要(原文)

Reasoning capabilities represent a critical frontier for large language models (LLMs), but developing them requires extensive proprietary datasets and computational resources. One way to efficiently supplement capabilities with is by model merging, which offers a promising alternative by combining multiple models without retraining. However, current merging approaches rely on manually-designed strategies for merging hyperparameters, limiting the exploration of potential model combinations and requiring significant human effort. We propose an Automated Model Merging Framework that enables fine-grained exploration of merging strategies while reducing costs through multi-fidelity approximations. We support both single and multi-objective optimization and introduce two novel search spaces: layerwise fusion (LFS) and depth-wise integration (DIS). Evaluating across a number of benchmarks, we find that the search autonomously finds 1) Merges that further boost single-objective performance, even on tasks the model has already been finetuned on, and 2) Merges that optimize multi-objective frontiers across tasks. Effective merges are found with limited compute, e.g. within less than 500 search steps.