Training-Free Dynamic Upcycling of Expert Language Models
作者: Eros Fanì, Oğuzhan Ersoy
分类: cs.LG, cs.CL
发布日期: 2026-03-31
备注: Accepted at the ICLR 2026 Workshop on Scaling Post-training for LLMs
💡 一句话要点
提出DUME,无需训练即可动态整合专家语言模型,提升多领域性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 多任务学习 领域自适应 免训练学习 岭回归 语言模型 动态模型 知识整合
📋 核心要点
- 现有LLM训练成本高昂,且领域知识不足,微调易导致过拟合,多任务学习存在灾难性遗忘问题。
- DUME通过重用已训练的领域专家模型,构建无需额外训练的MoE模型,实现多任务学习。
- 实验表明,DUME在因果语言建模和推理任务中均优于基线,并能保留或超越原始专家模型性能。
📝 摘要(中文)
大型语言模型(LLM)在各种专业任务上表现出色,展现了强大的问题解决能力。然而,训练这些模型成本高昂,并且由于依赖通用知识数据集,它们通常缺乏特定领域的专业知识。专业知识微调可以解决这个问题,但往往会导致过度专业化,并且由于目标发散,开发单一的多领域专家仍然很困难。此外,多任务训练由于干扰和灾难性遗忘而具有挑战性。现有工作提出了在混合专家(MoE)架构中结合密集模型的专业知识,但这种方法仍然需要多任务微调。为了解决这些问题,我们引入了动态升级MoE(DUME),这是一种新颖的方法,它重用在不同领域训练的密集专家来构建统一的MoE模型。我们的方法构建了一个单一的多任务模型,该模型保留了原始密集专家的能力,而无需额外的训练。DUME既经济高效又可扩展:通过利用岭回归的闭式解,它消除了进一步优化的需要,并使专家能够动态添加,同时保持模型的原始性能。我们证明了DUME在因果语言建模和推理设置中始终优于基线方法。最后,我们还表明,可以对DUME模型进行微调以进一步提高性能。我们表明,在因果语言建模设置中,DUME可以保留高达97.6%的专门从事特定领域的密集专家模型的能力,并且在推理设置中也可以超过它,在推理设置中,它可以达到密集专家性能的102.1%。我们的代码可在github.com/gensyn-ai/dume获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多领域应用中面临的挑战,包括训练成本高昂、领域知识不足、微调导致的过拟合以及多任务学习中的灾难性遗忘问题。现有方法,如多任务微调和混合专家模型,要么需要大量的计算资源,要么无法有效避免任务间的干扰,导致模型性能下降。
核心思路:DUME的核心思路是“动态升级”已有的、在不同领域训练好的专家模型,而不是从头开始训练一个新的多领域模型。通过巧妙地组合这些专家模型,DUME能够构建一个既具备各领域专业知识,又避免了过度专业化和灾难性遗忘的MoE模型。这种方法的核心优势在于其高效性和可扩展性,因为它无需额外的训练即可整合新的专家。
技术框架:DUME的技术框架主要包括以下几个阶段:1) 收集并准备在不同领域训练好的专家模型;2) 使用岭回归的闭式解来确定每个专家在MoE模型中的权重,从而实现专家的动态组合;3) 将组合后的MoE模型应用于多任务学习场景,评估其性能。整个框架的关键在于岭回归的使用,它使得权重的计算变得高效且可扩展。
关键创新:DUME最重要的技术创新点在于其“训练自由”的特性。与传统的MoE模型需要进行多任务微调不同,DUME通过岭回归的闭式解直接计算专家权重,从而避免了耗时的训练过程。这种方法不仅降低了计算成本,还使得模型能够动态地添加或删除专家,从而适应不断变化的任务需求。
关键设计:DUME的关键设计在于使用岭回归来确定专家权重。岭回归是一种线性回归的正则化形式,它通过在损失函数中添加L2惩罚项来防止过拟合。在DUME中,岭回归的目标是找到一组专家权重,使得MoE模型的输出尽可能接近目标输出,同时避免过度依赖于任何一个专家。岭回归的闭式解使得权重的计算变得非常高效,从而实现了DUME的训练自由特性。具体的参数设置包括岭回归的正则化系数,以及用于计算权重的训练数据的选择。
🖼️ 关键图片
📊 实验亮点
DUME在因果语言建模任务中,能够保留高达97.6%的特定领域专家模型性能。在推理任务中,DUME甚至可以超越原始专家模型,达到102.1%的性能。这些结果表明,DUME不仅能够有效地整合不同领域的知识,还能够通过专家之间的协同作用,进一步提升模型的整体性能。与需要大量训练的传统MoE模型相比,DUME具有显著的优势。
🎯 应用场景
DUME具有广泛的应用前景,例如可以应用于智能客服、内容生成、医疗诊断等领域。通过整合不同领域的专家模型,DUME可以为用户提供更专业、更全面的服务。此外,DUME的训练自由特性使得其能够快速适应新的任务需求,从而降低了模型的开发和维护成本。未来,DUME有望成为构建通用人工智能系统的重要组成部分。
📄 摘要(原文)
Large Language Models (LLMs) have achieved remarkable performance on a wide range of specialized tasks, exhibiting strong problem-solving capabilities. However, training these models is prohibitively expensive, and they often lack domain-specific expertise because they rely on general knowledge datasets. Expertise finetuning can address this issue; however, it often leads to overspecialization, and developing a single multi-domain expert remains difficult due to diverging objectives. Furthermore, multitask training is challenging due to interference and catastrophic forgetting. Existing work proposes combining the expertise of dense models within a Mixture of Experts (MoE) architecture, although this approach still requires multitask finetuning. To address these issues, we introduce Dynamic Upcycling MoE (DUME), a novel approach that reuses dense experts trained on different domains to construct a unified MoE model. Our method builds a single multitask model that preserves the capabilities of the original dense experts without requiring additional training. DUME is both cost-efficient and scalable: by leveraging the closed-form solution of ridge regression, it eliminates the need for further optimization and enables experts to be added dynamically while maintaining the model's original performance. We demonstrate that DUME consistently outperforms baseline approaches in both causal language modeling and reasoning settings. Finally, we also show that the DUME model can be fine-tuned to further improve performance. We show that, in the causal language modeling setting, DUME can retain up to 97.6% of a dense expert model specialized in one particular domain, and that it can also surpass it in the reasoning setting, where it can achieve 102.1% of the dense expert performance. Our code is available at: github.com/gensyn-ai/dume.