Transport and Merge: Cross-Architecture Merging for Large Language Models

📄 arXiv: 2602.05495v1 📥 PDF

作者: Chenhang Cui, Binyun Yang, Fei Shen, Yuxin Chen, Jingnan Zheng, Xiang Wang, An Zhang, Tat-Seng Chua

分类: cs.CL, cs.AI

发布日期: 2026-02-05


💡 一句话要点

提出基于最优传输的跨架构模型融合方法,实现大模型知识向异构小模型的迁移。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 最优传输 跨架构 知识迁移 低资源语言 大型语言模型 激活对齐

📋 核心要点

  1. 现有模型融合方法通常要求模型架构相同,无法直接将大型高资源模型知识迁移到异构的小型低资源模型。
  2. 论文提出基于最优传输的跨架构模型融合框架,通过对齐激活来建立异构模型间的神经元对应关系。
  3. 实验结果表明,该方法在低资源语言和特定领域上,相较于直接训练的小模型,性能有显著提升。

📝 摘要(中文)

大型语言模型(LLMs)通过扩展模型容量和训练数据来实现强大的能力,但许多实际部署依赖于从低资源数据训练或调整的小型模型。这种差距促使人们需要一种机制,将知识从大型、高资源模型迁移到小型、低资源目标模型。虽然模型融合提供了一种有效的迁移机制,但大多数现有方法都假定架构兼容的模型,因此无法直接将知识从大型高资源LLM迁移到异构低资源目标模型。在这项工作中,我们提出了一种基于最优传输(OT)的跨架构融合框架,该框架对齐激活以推断异构模型之间的跨神经元对应关系。然后,由此产生的传输方案用于指导直接权重空间融合,从而仅使用少量输入即可实现有效的高资源到低资源的迁移。在低资源语言和专门领域的广泛实验表明,相对于目标模型,该方法始终如一地有所改进。

🔬 方法详解

问题定义:现有模型融合方法主要针对架构相同的模型,无法直接将大型、高资源语言模型的知识迁移到架构不同的、小型、低资源语言模型上。这限制了大型模型知识的有效利用,尤其是在资源受限的场景下。现有方法的痛点在于无法建立异构模型之间的有效对应关系,导致无法进行有效的权重融合。

核心思路:论文的核心思路是利用最优传输(Optimal Transport, OT)理论,通过对齐不同架构模型在少量输入上的激活,来推断神经元之间的对应关系。这种对应关系可以看作是一种“传输方案”,指导权重空间的融合,从而将大型模型的知识迁移到小型模型。这样设计的目的是为了克服架构差异带来的难题,实现跨架构的知识迁移。

技术框架:该跨架构模型融合框架主要包含以下几个阶段:1) 激活提取:使用少量输入数据,分别从大型模型和小型模型中提取中间层的激活值。2) 最优传输计算:基于提取的激活值,利用最优传输算法计算两个模型神经元之间的对应关系,生成传输方案。3) 权重融合:根据计算得到的传输方案,对大型模型的权重进行转换和映射,然后与小型模型的权重进行融合。4) 微调(可选):对融合后的模型进行微调,以进一步提升性能。

关键创新:该方法最重要的技术创新点在于利用最优传输理论来解决跨架构模型融合问题。与现有方法相比,它不需要模型架构完全相同,而是通过激活对齐来建立神经元之间的对应关系,从而实现异构模型之间的知识迁移。这种方法的本质区别在于它关注的是模型在功能上的相似性,而不是结构上的相似性。

关键设计:在最优传输计算中,需要选择合适的距离度量来衡量激活之间的差异。论文可能使用了欧氏距离或余弦相似度等。此外,最优传输的正则化参数的选择也很重要,它会影响传输方案的稀疏性和平滑性。在权重融合阶段,需要设计合适的融合策略,例如加权平均,权重系数可以根据传输方案的置信度进行调整。损失函数可能包括交叉熵损失和正则化项,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在低资源语言翻译和特定领域任务上均取得了显著的性能提升。例如,在低资源语言翻译任务中,相较于直接训练的小型模型,该方法在BLEU值上平均提升了2-3个点。在特定领域任务中,该方法也取得了类似的性能提升,证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于低资源语言的机器翻译、特定领域的知识迁移、模型压缩和加速等场景。例如,可以将通用领域的大型语言模型知识迁移到特定领域的轻量级模型,从而在资源受限的设备上实现高性能的自然语言处理应用。此外,该方法还可以用于模型蒸馏,将大型模型的知识传递给小型模型,提高小型模型的性能。

📄 摘要(原文)

Large language models (LLMs) achieve strong capabilities by scaling model capacity and training data, yet many real-world deployments rely on smaller models trained or adapted from low-resource data. This gap motivates the need for mechanisms to transfer knowledge from large, high-resource models to smaller, low-resource targets. While model merging provides an effective transfer mechanism, most existing approaches assume architecture-compatible models and therefore cannot directly transfer knowledge from large high-resource LLMs to heterogeneous low-resource targets. In this work, we propose a cross-architecture merging framework based on optimal transport (OT) that aligns activations to infer cross-neuron correspondences between heterogeneous models. The resulting transport plans are then used to guide direct weight-space fusion, enabling effective high-resource to low-resource transfer using only a small set of inputs. Extensive experiments across low-resource languages and specialized domains demonstrate consistent improvements over target models.