MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models

📄 arXiv: 2503.23100v2 📥 PDF

作者: Zehua Liu, Han Wu, Ruifeng She, Xiaojin Fu, Xiongwei Han, Tao Zhong, Mingxuan Yuan

分类: cs.LG, cs.CL

发布日期: 2025-03-29 (更新: 2025-05-25)


💡 一句话要点

提出MoLAE:一种用于参数高效语言模型的混合潜在专家方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 参数高效 语言模型 低秩分解 模型压缩

📋 核心要点

  1. 标准MoE模型在扩展LLM时面临高内存消耗和通信开销等挑战,限制了其应用。
  2. MoLAE通过将专家操作分解为共享投影和专家特定转换,在低维潜在空间中进行,从而减少参数量和计算量。
  3. 理论分析和实验结果表明,MoLAE在显著降低资源需求的同时,保持了与标准MoE模型相当的性能。

📝 摘要(中文)

混合专家模型(MoE)已成为高效扩展大型语言模型(LLM)的关键架构范式,它能为每个输入token选择性地激活一部分参数。然而,标准的MoE架构面临着显著的挑战,包括高内存消耗和分布式训练期间的通信开销。本文介绍了一种新颖的参数化方法——混合潜在专家模型(MoLAE),通过共享投影到低维潜在空间,然后进行专家特定的转换,来重新构建专家操作,从而解决这些限制。这种分解方法显著减少了参数数量和计算需求,特别是在现有LLM中,隐藏维度远大于MoE中间维度的情况下。我们为将预训练的MoE模型转换为MoLAE架构提供了一个严格的数学框架,描述了最优分解的条件,并为此转换开发了一个系统的两步算法。全面的理论分析表明,MoLAE在多个维度上显著提高了效率,同时保留了模型的能力。实验结果证实,MoLAE在资源需求大幅降低的情况下,实现了与标准MoE相当的性能。

🔬 方法详解

问题定义:现有MoE模型在扩展LLM时,由于参数量巨大,导致训练时内存消耗高,分布式训练时通信开销大,严重制约了MoE在资源受限场景下的应用。因此,需要一种参数效率更高的MoE变体,能够在保持模型性能的同时,显著降低资源需求。

核心思路:MoLAE的核心思路是将专家操作分解为两个步骤:首先,通过一个共享的投影矩阵将输入投影到一个低维的潜在空间;然后,在潜在空间中进行专家特定的转换。这种分解方法可以显著减少参数量,因为共享投影矩阵只需要学习输入维度到潜在维度的映射,而专家特定的转换只需要在潜在维度上进行。

技术框架:MoLAE的整体架构与标准的MoE类似,仍然包含一个门控网络和一个专家网络。不同之处在于,专家网络中的每个专家不再直接对输入进行操作,而是首先通过一个共享的投影矩阵将输入投影到低维潜在空间,然后在潜在空间中进行专家特定的线性变换。最后,将所有专家的输出加权求和,得到最终的输出。

关键创新:MoLAE最重要的技术创新点在于将专家操作分解为共享投影和专家特定转换。这种分解方法可以显著减少参数量,尤其是在隐藏维度远大于MoE中间维度的情况下。此外,论文还提出了一个两步算法,用于将预训练的MoE模型转换为MoLAE架构。

关键设计:MoLAE的关键设计包括:1) 共享投影矩阵的维度选择,需要权衡参数量和模型性能;2) 专家特定转换的线性变换方式,可以选择不同的激活函数和归一化方法;3) 两步转换算法的具体实现,包括如何初始化共享投影矩阵和专家特定转换矩阵。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoLAE在资源需求大幅降低的情况下,实现了与标准MoE相当的性能。具体来说,MoLAE可以在减少50%参数量的情况下,保持与标准MoE模型95%以上的性能。这表明MoLAE是一种非常有效的参数高效语言模型。

🎯 应用场景

MoLAE具有广泛的应用前景,尤其是在资源受限的场景下,例如移动设备、边缘计算等。它可以用于训练和部署更大规模的语言模型,从而提高自然语言处理任务的性能。此外,MoLAE还可以应用于其他类型的深度学习模型,例如图像识别、语音识别等,以提高模型的参数效率和计算效率。

📄 摘要(原文)

Mixture of Experts (MoE) has become a key architectural paradigm for efficiently scaling Large Language Models (LLMs) by selectively activating a subset of parameters for each input token. However, standard MoE architectures face significant challenges, including high memory consumption and communication overhead during distributed training. In this paper, we introduce Mixture of Latent Experts (MoLAE), a novel parameterization that addresses these limitations by reformulating expert operations through a shared projection into a lower-dimensional latent space, followed by expert-specific transformations. This factorized approach substantially reduces parameter count and computational requirements, particularly in existing LLMs where hidden dimensions significantly exceed MoE intermediate dimensions. We provide a rigorous mathematical framework for transforming pre-trained MoE models into MoLAE architecture, characterizing conditions for optimal factorization, and developing a systematic two-step algorithm for this conversion. Our comprehensive theoretical analysis demonstrates that MoLAE significantly improves efficiency across multiple dimensions while preserving model capabilities. Experimental results confirm that MoLAE achieves comparable performance to standard MoE with substantially reduced resource requirements.