Mixture of Group Experts for Learning Invariant Representations
作者: Lei Kang, Jia Li, Mi Tian, Hua Huang
分类: cs.LG, cs.CL, cs.CV
发布日期: 2025-04-12 (更新: 2025-07-10)
💡 一句话要点
提出混合组专家模型(MoGE),通过组稀疏正则化提升MoE模型的专家多样性和性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 混合专家模型 稀疏表示 组稀疏正则化 Transformer 图像分类
📋 核心要点
- 传统MoE模型专家多样性不足,限制了性能和可扩展性,尤其是在专家数量增加时。
- MoGE通过对top-$k$路由的输入进行组稀疏正则化,间接正则化专家,提升专家多样性。
- 实验表明,MoGE在图像分类和语言建模任务中显著优于MoE模型,且开销很小。
📝 摘要(中文)
本文提出了一种新颖的混合组专家模型(MoGE),旨在提升稀疏激活的混合专家(MoE)模型的性能和可扩展性。MoE模型虽然能有效增加参数量,但专家之间的多样性和专业化程度有限。受稀疏表示的启发,本文从新的角度审视了带有top-$k$路由的MoE模型,并将稀疏表示的理论见解引入MoE模型。在此基础上,提出了一种针对top-$k$路由输入的组稀疏正则化方法,即MoGE。MoGE通过对路由输入施加结构约束来间接正则化专家,同时保留了原始MoE架构。此外,将路由输入组织成2D地形图,在空间上对相邻元素进行分组。这种结构使MoGE能够捕获对微小变换不变的表示,从而显著增强专家多样性和专业化。在图像分类和语言建模任务的各种Transformer模型上的综合评估表明,MoGE明显优于其MoE对应模型,且仅需极少的额外内存和计算开销。该方法为扩展专家数量和减少专家之间的冗余提供了一个简单而有效的解决方案。
🔬 方法详解
问题定义:MoE模型在扩展模型规模时面临专家多样性不足的问题。当专家数量增加时,专家之间容易出现冗余,导致模型性能提升受限。现有的MoE模型难以保证专家之间的专业化和差异性,从而影响模型的整体表达能力。
核心思路:本文的核心思路是借鉴稀疏表示的思想,通过对MoE模型中路由层的输入进行组稀疏正则化,从而间接约束专家的行为,鼓励专家学习不同的特征表示。通过将路由输入组织成2D地形图,利用空间相邻元素的相关性,进一步提升模型对微小变换的鲁棒性,并促进专家多样性。
技术框架:MoGE模型沿用了MoE的整体架构,主要包括输入层、Transformer层、路由层和专家层。关键在于路由层,MoGE对路由层的输入进行组稀疏正则化。具体来说,首先将路由输入reshape成一个2D地形图,然后对地形图上的相邻元素进行分组,最后对每组元素施加稀疏约束。模型训练过程中,通过top-$k$路由选择激活的专家,并利用梯度下降算法优化模型参数。
关键创新:MoGE的关键创新在于引入了组稀疏正则化来提升MoE模型的专家多样性。与直接正则化专家参数不同,MoGE通过约束路由输入来间接影响专家的行为,这种方法更加灵活有效。此外,将路由输入组织成2D地形图,利用空间信息,进一步提升了模型的鲁棒性和专家多样性。
关键设计:MoGE的关键设计包括:1) 将路由输入reshape成2D地形图,确定地形图的尺寸和分组方式;2) 选择合适的组稀疏正则化方法,例如L1范数或L2范数;3) 调整组稀疏正则化的强度,通过超参数控制专家多样性的程度;4) 损失函数包括原始MoE模型的损失函数和组稀疏正则化项,需要平衡两者的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoGE在图像分类和语言建模任务中均取得了显著的性能提升。例如,在ImageNet数据集上,MoGE相比于MoE模型,Top-1准确率提升了超过1个百分点。在语言建模任务中,MoGE也显著降低了困惑度。此外,MoGE的计算开销和内存占用与MoE模型相当,证明了其高效性和实用性。
🎯 应用场景
MoGE模型可以应用于各种需要大规模模型和高表达能力的场景,例如大规模图像分类、自然语言处理、语音识别等。通过提升专家多样性,MoGE能够有效扩展模型规模,提高模型性能,并降低模型冗余。该方法在计算资源有限的情况下,也能有效提升模型性能,具有广泛的应用前景。
📄 摘要(原文)
Sparsely activated Mixture-of-Experts (MoE) models effectively increase the number of parameters while maintaining consistent computational costs per token. However, vanilla MoE models often suffer from limited diversity and specialization among experts, constraining their performance and scalability, especially as the number of experts increases. In this paper, we present a novel perspective on vanilla MoE with top-$k$ routing inspired by sparse representation. This allows us to bridge established theoretical insights from sparse representation into MoE models. Building on this foundation, we propose a group sparse regularization approach for the input of top-$k$ routing, termed Mixture of Group Experts (MoGE). MoGE indirectly regularizes experts by imposing structural constraints on the routing inputs, while preserving the original MoE architecture. Furthermore, we organize the routing input into a 2D topographic map, spatially grouping neighboring elements. This structure enables MoGE to capture representations invariant to minor transformations, thereby significantly enhancing expert diversity and specialization. Comprehensive evaluations across various Transformer models for image classification and language modeling tasks demonstrate that MoGE substantially outperforms its MoE counterpart, with minimal additional memory and computation overhead. Our approach provides a simple yet effective solution to scale the number of experts and reduce redundancy among them. The source code is included in the supplementary material and will be publicly released.