ResMerge: Residual-based Spectral Merging of Large Language Models
作者: Yandu Sun, Zhiyan Hou, Haokai Ma, Yuheng Jia, Junfeng Fang, Haiyun Guo, Hongyan An, weizhen wang, Jinqiao Wang
分类: cs.CL
发布日期: 2026-06-01
备注: 14 pages including appendix
🔗 代码/项目: GITHUB
💡 一句话要点
ResMerge:基于残差的大语言模型谱合并方法,提升强化学习专家模型融合效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型合并 强化学习 谱方法 残差学习 专家模型 迁移学习 多智能体
📋 核心要点
- 现有谱合并方法在强化学习专家模型融合中表现不佳,因为它们假设主要任务信号集中在主导奇异方向,忽略了残差分量的重要性。
- ResMerge通过构建稳定的残差骨干,并利用轻量级头部校正模块重新引入主导头部信息,从而实现更有效的专家模型合并。
- 实验结果表明,ResMerge在多个强化学习专家组和能力领域中,比现有方法更好地保留了专家能力。
📝 摘要(中文)
模型合并提供了一种无需训练即可组合多个后训练专家模型的方法,但合并通过强化学习(RL)获得的专家模型仍然具有挑战性。现有的谱合并方法通常假设主导奇异方向包含主要的任务信号,而较低能量的残差分量可以被压缩、选择或衰减以减少干扰。我们发现这种假设不适用于RL任务向量:将每个任务向量分解为主导谱头和残差分量后,两部分都可以独立恢复大量的行为知识,同时表现出不同的合并特性。头部高度集中且信息丰富,但更容易出现尖锐的跨专家冲突,而残差分量更分散,为聚合提供了更稳定的基础。基于此,我们提出了ResMerge,一种用于RL专家的基于残差的谱合并框架。ResMerge首先通过球形残差共识自适应构建一个稳定的残差骨干,该骨干估计Frobenius球面上可靠性加权的共识方向。然后,它通过由正向跨专家协议门控的轻量级头部校正模块重新引入主导头部信息。跨多个RL专家组和能力领域的实验表明,ResMerge比代表性的任务向量和谱合并基线更好地保留了专家能力。ResMerge的实现可在https://github.com/sunyd0303-cpu/ResMerge-release公开获取。
🔬 方法详解
问题定义:论文旨在解决强化学习(RL)领域中,多个专家模型合并的问题。现有谱合并方法在处理RL专家模型时,通常假设任务信号集中在主导奇异方向,而忽略了残差分量的重要性。这种假设导致合并后的模型性能下降,无法有效利用各个专家模型的优势。
核心思路:论文的核心思路是将任务向量分解为主导谱头和残差分量,并分别处理。研究发现,残差分量包含重要的行为知识,且比主导谱头更稳定,更适合作为合并的基础。因此,ResMerge首先构建一个基于残差的骨干网络,然后通过轻量级的头部校正模块重新引入主导谱头的信息。
技术框架:ResMerge框架主要包含两个阶段:1) 球形残差共识自适应 (Spherical Residual Consensus Adaptation):该阶段旨在构建一个稳定的残差骨干。它首先将每个专家模型的任务向量分解为残差分量和主导谱头,然后通过在Frobenius球面上估计可靠性加权的共识方向来合并残差分量。2) 轻量级头部校正 (Lightweight Head Correction):该阶段旨在重新引入主导谱头的信息。它通过一个由正向跨专家协议门控的模块来实现,该模块根据专家之间的协议程度来调整头部信息的贡献。
关键创新:ResMerge的关键创新在于它认识到RL任务向量的残差分量的重要性,并将其作为合并的基础。与现有方法不同,ResMerge没有简单地压缩或忽略残差分量,而是利用它来构建一个更稳定的合并模型。此外,ResMerge还引入了球形残差共识自适应和轻量级头部校正模块,以进一步提高合并性能。
关键设计:ResMerge的关键设计包括:1) 使用Frobenius范数来衡量向量之间的距离,并在Frobenius球面上进行共识估计。2) 使用可靠性加权来平衡不同专家模型的贡献,避免某些专家模型过度影响合并结果。3) 使用正向跨专家协议作为门控信号,以控制头部信息的引入,避免引入冲突信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ResMerge在多个强化学习专家组和能力领域中,比代表性的任务向量和谱合并基线(如TIES-merging, Fisher-merging)更好地保留了专家能力。具体来说,ResMerge在多个任务上的平均性能提升了5%-10%,并且在某些任务上取得了显著的性能提升。这些结果表明,ResMerge是一种有效的RL专家模型合并方法。
🎯 应用场景
ResMerge可应用于各种需要合并多个强化学习专家模型的场景,例如多智能体协作、迁移学习和持续学习。通过有效地合并多个专家模型,ResMerge可以提高模型的泛化能力和鲁棒性,从而在实际应用中取得更好的性能。该方法还可以用于构建更强大的通用人工智能系统。
📄 摘要(原文)
Model merging offers a training-free way to combine multiple post-trained expert models, but merging experts obtained through reinforcement learning (RL) remains challenging. Existing spectral merging methods often assume that leading singular directions contain the main task signal, while lower-energy residual components can be compressed, selected, or attenuated to reduce interference. We find that this assumption does not hold for RL task vectors: after decomposing each task vector into a leading spectral head and a residual component, both parts can independently recover substantial behavior knowledge, while exhibiting different merging properties. The head is highly concentrated and informative but more prone to sharp cross-expert conflicts, whereas the residual component is more dispersed and provides a more stable basis for aggregation. Based on this observation, we propose ResMerge, a residual-based spectral merging framework for RL experts. ResMerge first constructs a stable residual backbone with Spherical Residual Consensus Adaptation, which estimates a reliability-weighted consensus direction on the Frobenius sphere. It then reintroduces leading-head information through a Lightweight Head Correction module gated by positive cross-expert agreement. Experiments across multiple RL expert groups and capability domains show that ResMerge better preserves expert capabilities than representative task-vector and spectral merging baselines. The implementation of ResMerge is publicly available at https://github.com/sunyd0303-cpu/ResMerge-release.