Knowledge Fusion of Large Language Models Via Modular SkillPacks

📄 arXiv: 2505.18502 📥 PDF

作者: Guodong Du, Zhuo Li, Xuanning Zhou, Junlin Li, Zesheng Shi, Wanyu Lin, Ho-Kin Tang, Xiucheng Li, Fangming Liu, Wenya Wang, Min Zhang, Jing Li

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-02-28


💡 一句话要点

提出GraftLLM,通过模块化SkillPack实现大语言模型的知识融合与迁移。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识迁移 知识融合 持续学习 模型压缩 SkillPack 模块化学习

📋 核心要点

  1. 现有方法在大型异构模型上进行知识迁移时,要么忽略学生模型自身能力,要么容易发生灾难性遗忘,限制了其应用。
  2. GraftLLM的核心思想是将源模型的知识封装成SkillPack,并将其嫁接到目标模型上,从而实现高效的知识迁移和融合。
  3. 实验结果表明,GraftLLM在知识迁移、知识融合和无遗忘学习方面均优于现有技术,证明了其有效性和优越性。

📝 摘要(中文)

本文提出了一种名为GraftLLM的新方法,旨在解决大语言模型(LLM)中跨能力迁移的挑战。该方法将源模型的能力以SkillPack的格式存储到目标模型中,从而保留通用能力,减少参数冲突,并支持无遗忘的持续学习和模型融合。GraftLLM采用模块感知的自适应压缩策略来压缩参数更新,确保高效存储的同时保持任务特定的知识。生成的SkillPack作为一种紧凑且可迁移的知识载体,适用于异构模型融合和持续学习。在各种场景下的实验表明,GraftLLM在知识迁移、知识融合和无遗忘学习方面优于现有技术,为跨能力迁移提供了一种可扩展且高效的解决方案。

🔬 方法详解

问题定义:现有的大语言模型知识迁移方法,特别是针对大型异构模型,存在一些问题。全参数微调容易导致灾难性遗忘,而参数高效微调(PEFT)方法又难以有效吸收源模型的知识。因此,如何高效且有效地将源模型的知识迁移到目标模型,同时避免灾难性遗忘,是一个关键问题。

核心思路:GraftLLM的核心思路是将源模型的特定能力封装成模块化的SkillPack,然后将这些SkillPack嫁接到目标模型中。这种方法允许目标模型选择性地吸收源模型的知识,同时保留自身的通用能力,从而减少参数冲突和灾难性遗忘的风险。

技术框架:GraftLLM主要包含以下几个阶段:1)知识提取:从源模型中提取特定任务的知识。2)SkillPack构建:将提取的知识封装成SkillPack,SkillPack包含压缩后的参数更新。3)知识嫁接:将SkillPack嫁接到目标模型中,目标模型可以选择性地使用SkillPack中的知识。4)模型微调:对嫁接后的模型进行微调,以进一步优化性能。

关键创新:GraftLLM的关键创新在于SkillPack的设计和模块感知的自适应压缩策略。SkillPack提供了一种模块化的知识表示方式,使得知识迁移更加灵活和可控。模块感知的自适应压缩策略能够有效地压缩参数更新,从而减少存储空间和计算开销,同时保持任务特定的知识。

关键设计:GraftLLM的关键设计包括:1)模块化SkillPack:SkillPack包含特定任务的参数更新,可以独立地嫁接到目标模型中。2)模块感知的自适应压缩:根据不同模块的重要性,采用不同的压缩率,以平衡存储空间和性能。3)嫁接机制:设计了一种嫁接机制,使得目标模型可以灵活地选择和使用SkillPack中的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GraftLLM在知识迁移、知识融合和无遗忘学习方面均优于现有技术。例如,在知识迁移任务中,GraftLLM相比于基线方法,性能提升了显著的百分比(具体数值需要在论文中查找)。此外,GraftLLM还能够有效地避免灾难性遗忘,并在持续学习场景中保持较高的性能。

🎯 应用场景

GraftLLM具有广泛的应用前景,包括多任务学习、模型压缩、持续学习和异构模型融合。它可以用于构建更高效、更灵活的大语言模型,并促进不同模型之间的知识共享和协作。例如,可以将多个专业领域的知识封装成SkillPack,然后将这些SkillPack嫁接到通用大语言模型中,从而使其具备更强的专业能力。

📄 摘要(原文)

Cross-capability transfer is a key challenge in large language model (LLM) research, with applications in multi-task integration, model compression, and continual learning. Recent works like FuseLLM and FuseChat have demonstrated the potential of transferring multiple model capabilities to lightweight models, enhancing adaptability and efficiency, which motivates our investigation into more efficient cross-capability transfer methods. However, existing approaches primarily focus on small, homogeneous models, limiting their applicability. For large, heterogeneous models, knowledge distillation with full-parameter fine-tuning often overlooks the student model's intrinsic capacity and risks catastrophic forgetting, while PEFT methods struggle to effectively absorb knowledge from source LLMs. To address these issues, we introduce GraftLLM, a novel method that stores source model capabilities in a target model with SkillPack format. This approach preserves general capabilities, reduces parameter conflicts, and supports forget-free continual learning and model fusion. We employ a module-aware adaptive compression strategy to compress parameter updates, ensuring efficient storage while maintaining task-specific knowledge. The resulting SkillPack serves as a compact and transferable knowledge carrier, ideal for heterogeneous model fusion and continual learning. Experiments across various scenarios demonstrate that GraftLLM outperforms existing techniques in knowledge transfer, knowledge fusion, and forget-free learning, providing a scalable and efficient solution for cross-capability transfer. The code is publicly available at:this https URL.