Automatic Expert Discovery in LLM Upcycling via Sparse Interpolated Mixture-of-Experts

作者: Shengzhuang Chen, Ying Wei, Jonathan Richard Schwarz

分类: cs.LG

发布日期: 2025-06-14

备注: 9 pages

💡 一句话要点

提出SIMoE，通过稀疏插值混合专家模型实现LLM的自动专家发现与能力提升。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 混合专家模型 指令调优 稀疏性 自动专家发现

📋 核心要点

现有方法难以将LLM有效转化为具备多领域专业知识的混合专家模型，面临性能与计算成本的挑战。
SIMoE通过结构稀疏专家子集和输入相关的专家合并策略，自动发现并融合LLM中的领域知识。
实验表明，SIMoE在指令调优基准上取得了SOTA性能，并在性能与计算成本之间实现了最佳平衡。

📝 摘要（中文）

本文提出了一种名为稀疏插值混合专家（SIMoE）的指令调优算法，旨在将预训练的稠密大型语言模型（LLM）微调成MoE风格的模型，使其具备多个专业领域的能力。在指令调优过程中，SIMoE在指定的稀疏性约束下自动识别多个专业专家，每个专家代表种子LLM参数的一个结构稀疏子集，对应于数据中的特定领域知识。SIMoE同时通过路由网络学习一种输入相关的专家合并策略，利用丰富的跨专家知识来实现卓越的下游泛化能力，超越现有的基线方法。实验结果表明，SIMoE在常见的指令调优基准测试中始终达到最先进的性能，同时与所有基线方法相比，保持了最佳的性能-计算权衡。

🔬 方法详解

问题定义：论文旨在解决如何将一个预训练的稠密LLM转化为一个具有多个专业领域知识的MoE模型的问题。现有方法通常需要手动设计专家或面临训练不稳定、计算成本高等问题，难以在性能和效率之间取得平衡。

核心思路：论文的核心思路是通过指令调优，自动发现并激活LLM中与特定领域相关的参数子集，形成稀疏的专家。同时，学习一个路由网络，根据输入动态地合并这些专家的知识，从而实现更好的泛化能力。这种方法避免了手动设计专家的繁琐，并利用稀疏性降低了计算成本。

技术框架：SIMoE的整体框架包括以下几个主要模块：1) 预训练的稠密LLM作为种子模型；2) 结构稀疏的专家子集，每个专家对应LLM参数的一个子集；3) 路由网络，根据输入动态地计算每个专家的权重，实现专家合并；4) 指令调优数据集，用于训练专家和路由网络。训练过程是端到端的，同时优化专家参数和路由网络参数。

关键创新：SIMoE的关键创新在于：1) 自动专家发现：通过结构稀疏约束，自动识别LLM中与特定领域相关的参数子集，无需手动设计专家；2) 输入相关的专家合并：通过路由网络，根据输入动态地合并专家的知识，实现更好的泛化能力；3) 性能-计算权衡：通过稀疏性降低计算成本，同时保持甚至提升性能。与现有方法的本质区别在于，SIMoE是一种端到端的自动专家发现和合并方法，无需手动干预，并且能够实现更好的性能-计算权衡。

关键设计：SIMoE的关键设计包括：1) 结构稀疏约束：对专家参数施加结构稀疏约束，例如块稀疏或行稀疏，以降低计算成本；2) 路由网络：路由网络可以是简单的线性层或更复杂的神经网络，用于计算每个专家的权重；3) 损失函数：损失函数包括指令调优损失和稀疏性约束损失，用于优化专家参数和路由网络参数；4) 指令调优数据集：使用高质量的指令调优数据集，覆盖多个领域，以训练专家和路由网络。

🖼️ 关键图片

📊 实验亮点

SIMoE在常见的指令调优基准测试中取得了SOTA性能，例如在XXX数据集上，SIMoE的性能比现有最佳方法提升了X%。同时，SIMoE通过稀疏性降低了计算成本，例如在推理时，SIMoE的计算量比稠密LLM降低了Y%。这些实验结果表明，SIMoE在性能和计算成本之间实现了最佳平衡。

🎯 应用场景

SIMoE可应用于各种需要多领域知识的LLM应用场景，例如智能客服、教育辅导、内容创作等。通过自动发现和合并LLM中的领域知识，SIMoE可以提升LLM在特定领域的性能，并降低部署成本，具有广泛的应用前景和实际价值。未来，SIMoE可以进一步扩展到更多模态的数据，例如图像、语音等，实现多模态的专家发现和合并。

📄 摘要（原文）

We present Sparse Interpolated Mixture-of-Experts (SIMoE) instruction-tuning, an end-to-end algorithm designed to fine-tune a dense pre-trained Large Language Model (LLM) into a MoE-style model that possesses capabilities in multiple specialized domains. During instruction-tuning, SIMoE automatically identifies multiple specialized experts under a specified sparsity constraint, with each expert representing a structurally sparse subset of the seed LLM's parameters that correspond to domain-specific knowledge within the data. SIMoE simultaneously learns an input-dependent expert merging strategy via a router network, leveraging rich cross-expert knowledge for superior downstream generalization that surpasses existing baselines. Empirically, SIMoE consistently achieves state-of-the-art performance on common instruction-tuning benchmarks while maintaining an optimal performance-compute trade-off compared to all baselines.

Automatic Expert Discovery in LLM Upcycling via Sparse Interpolated Mixture-of-Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理