Reinforced Model Merging

作者: Jiaqi Han, Jingwen Ye, Shunyu Liu, Haofei Zhang, Jie Song, Zunlei Feng, Mingli Song

分类: cs.AI

发布日期: 2025-03-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出强化模型融合（RMM）框架，高效实现免训练的模型参数空间融合。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 模型融合 强化学习 免训练 参数空间 模型架构搜索

📋 核心要点

现有模型融合方法对所有参数进行统一处理，忽略了参数的重要性差异，导致融合后性能下降。
RMM框架通过强化学习智能体，在模型层面上搜索最优的融合架构，无需梯度计算，适用于边缘设备。
RMM利用数据子集进行评估，显著加速了奖励反馈过程，实验表明RMM在视觉和NLP任务上均取得了SOTA性能。

📝 摘要（中文）

大型语言模型的成功推动了模型融合技术的发展，特别是那些在参数空间内组合模型能力的免训练方法。然而，仍然存在两个挑战：（1）对所有参数的统一处理导致性能下降；（2）基于搜索的算法通常效率低下。本文提出了一种创新的框架，称为强化模型融合（RMM），它包含一个为融合任务量身定制的环境和智能体。这些组件相互作用以执行逐层融合操作，旨在搜索最佳融合架构。值得注意的是，RMM在原始模型上不进行任何梯度计算，使其在边缘设备上可行。此外，通过在评估过程中利用数据子集，我们解决了奖励反馈阶段的瓶颈，从而将RMM加速高达100倍。广泛的实验表明，RMM在各种视觉和NLP数据集上实现了最先进的性能，并有效地克服了现有基线方法的局限性。我们的代码可在https://github.com/WuDiHJQ/Reinforced-Model-Merging获得。

🔬 方法详解

问题定义：现有免训练模型融合方法主要存在两个痛点：一是简单地对所有参数进行平均或加权，忽略了不同参数的重要性，导致融合后的模型性能下降；二是基于搜索的融合算法效率低下，难以在大规模模型上应用。

核心思路：RMM的核心思路是将模型融合过程建模为一个强化学习问题。通过训练一个智能体，使其能够根据当前模型的性能，选择合适的融合策略，从而找到最优的融合架构。这种方法能够自适应地调整不同层的融合方式，避免了对所有参数进行统一处理的弊端。

技术框架：RMM框架主要包含两个核心组件：环境和智能体。环境负责接收智能体的融合动作，并根据融合后的模型在验证集上的表现，给出奖励反馈。智能体则根据环境的反馈，学习如何选择最优的融合动作。整个过程是一个迭代优化的过程，智能体不断探索和学习，最终找到最优的融合架构。

关键创新：RMM最重要的创新点在于将模型融合问题建模为一个强化学习问题，并设计了相应的环境和智能体。这种方法能够自适应地调整不同层的融合方式，避免了对所有参数进行统一处理的弊端。此外，RMM在原始模型上不进行任何梯度计算，使其在边缘设备上可行。

关键设计：RMM的关键设计包括：(1) 智能体的网络结构，通常采用RNN或Transformer等序列模型，用于处理模型的层序列；(2) 奖励函数的设计，通常基于融合后模型在验证集上的性能指标，例如准确率、F1值等；(3) 数据子集的使用，为了加速奖励反馈过程，RMM采用数据子集进行评估，从而减少了计算量。

🖼️ 关键图片

📊 实验亮点

RMM在多个视觉和NLP数据集上取得了SOTA性能，例如，在图像分类任务中，RMM相比于现有的基线方法，准确率提升了显著的百分点。此外，RMM通过利用数据子集进行评估，将融合速度提升了高达100倍，极大地提高了模型融合的效率。

🎯 应用场景

RMM具有广泛的应用前景，例如：(1) 在资源受限的边缘设备上部署高性能模型；(2) 快速构建特定领域的定制化模型；(3) 作为一种通用的模型融合技术，应用于各种机器学习任务中。该研究成果有助于推动模型融合技术的发展，并促进人工智能在各个领域的应用。

📄 摘要（原文）

The success of large language models has garnered widespread attention for model merging techniques, especially training-free methods which combine model capabilities within the parameter space. However, two challenges remain: (1) uniform treatment of all parameters leads to performance degradation; (2) search-based algorithms are often inefficient. In this paper, we present an innovative framework termed Reinforced Model Merging (RMM), which encompasses an environment and agent tailored for merging tasks. These components interact to execute layer-wise merging actions, aiming to search the optimal merging architecture. Notably, RMM operates without any gradient computations on the original models, rendering it feasible for edge devices. Furthermore, by utilizing data subsets during the evaluation process, we addressed the bottleneck in the reward feedback phase, thereby accelerating RMM by up to 100 times. Extensive experiments demonstrate that RMM achieves state-of-the-art performance across various vision and NLP datasets and effectively overcomes the limitations of the existing baseline methods. Our code is available at https://github.com/WuDiHJQ/Reinforced-Model-Merging.

Reinforced Model Merging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理