EMO: Pretraining Mixture of Experts for Emergent Modularity

📄 arXiv: 2605.06663v1 📥 PDF

作者: Ryan Wang, Akshita Bhagia, Sewon Min

分类: cs.CL

发布日期: 2026-05-07


💡 一句话要点

提出EMO预训练框架,通过文档级约束实现混合专家模型(MoE)的涌现式模块化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型模块化 稀疏模型 预训练策略 推理优化 语义特化

📋 核心要点

  1. 现有MoE模型在推理时若人为限制专家子集,会导致严重的性能衰退,无法满足内存受限场景下的按需部署需求。
  2. EMO通过引入文档级约束,强制同一文档内的Token共享专家池,引导模型在预训练过程中自发形成具有语义一致性的专家分组。
  3. 实验表明,EMO在保持全模型性能的前提下,实现了极高的专家剪枝鲁棒性,且专家特化程度从低级语法提升至高级语义层面。

📝 摘要(中文)

大型语言模型通常作为单体系统部署,即便应用仅需特定领域能力(如代码或数学)也需加载全模型。混合专家模型(MoE)虽能通过稀疏激活实现部分计算,但实践中限制专家子集会导致性能严重下降,限制了其在内存受限场景下的应用。本文提出EMO,一种无需人工先验即可实现模块化(即专家子集的独立使用与组合)的MoE架构。其核心思想是引导相似领域的Token依赖相似的专家。通过利用文档边界约束,EMO使同一文档内的Token共享专家池,而不同文档可使用不同池。在1T Token上预训练14B参数模型后,EMO在保持全模型性能的同时,实现了高效的专家选择:保留25%(12.5%)专家仅导致1%(3%)的性能下降,而标准MoE在此设置下表现崩溃。EMO展现了语义层面的专家特化,为大型稀疏模型的模块化部署提供了新路径。

🔬 方法详解

问题定义:现有MoE模型虽然在训练时通过路由机制实现了稀疏性,但在推理时若强行限制专家子集,会导致模型性能急剧下降。这使得MoE难以在内存受限的边缘设备或特定领域任务中实现真正的模块化部署。

核心思路:论文提出利用文档的自然边界作为先验,假设同一文档内的Token具有高度的语义相关性。通过约束同一文档内的Token必须从共享的专家池中选择专家,促使模型在预训练阶段自发学习到领域相关的专家分组。

技术框架:EMO在标准MoE架构基础上,引入了文档级专家池约束。在预训练过程中,模型不再是全局随机路由,而是根据文档ID或边界信息,将Token的路由空间限制在特定的专家子集内,从而实现模块化的专家分配。

关键创新:最重要的创新在于“涌现式模块化”。与传统MoE依赖复杂的正则化或人工定义领域不同,EMO仅通过简单的文档边界约束,就让模型在预训练中自动形成了语义层面的专家特化,实现了专家子集的独立可组合性。

关键设计:该方法在预训练阶段实施了专家池限制策略,通过控制路由器的选择范围,确保了同一文档内的Token在语义上的一致性。模型规模为14B总参数(1B激活参数),在1T Token数据集上进行了充分训练,验证了其在不同稀疏度下的性能稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EMO在14B参数规模下,全模型性能与标准MoE持平。在专家剪枝实验中,EMO保留25%专家时性能仅下降1%,保留12.5%专家时下降3%,而标准MoE在同等条件下性能显著崩溃。此外,EMO的专家分组表现出明显的语义特化(如数学、代码领域),而非标准MoE中常见的低级语法特化。

🎯 应用场景

EMO适用于内存受限的部署环境,如移动端设备、嵌入式系统或需要按需加载特定领域能力(如仅加载代码专家或数学专家)的云端服务。该架构为构建可组合、模块化的超大规模模型提供了技术基础,有助于降低大模型推理的硬件门槛,并提升模型在多任务场景下的灵活性与可解释性。

📄 摘要(原文)

Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.