RotMoLE: Enhancing Mixture of Low-Rank Experts through Rotational Gating Mechanism
作者: Mengyang Sun, Maochuan Dou, Tao Feng, Dan Zhang, Yihao Wang, Junpeng Liu, Yifan Zhu, Jie Tang
分类: cs.LG, cs.CL
发布日期: 2026-05-25
💡 一句话要点
RotMoLE:通过旋转门机制增强低秩专家混合模型,提升复杂场景下的知识学习能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 专家混合模型 低秩适配器 旋转门机制 参数高效微调 多任务学习 多语言模型 大型语言模型 知识迁移
📋 核心要点
- 现有MoE方法在专家选择后仅进行标量重加权,限制了专家表示和泛化能力,无法充分利用专家知识。
- RotMoLE为低秩专家MoE引入旋转门机制,对选定专家进行旋转变换,增强专家利用和专业化能力。
- 在多任务和多语言训练场景下,RotMoLE表现出优异性能,验证了其在复杂知识学习方面的有效性。
📝 摘要(中文)
大型语言模型(LLMs)通常经过微调以处理特定领域的任务,然后应用于垂直应用。然而,将它们适应具有多样化专业知识的复杂场景仍然具有挑战性。同时,专家混合(MoE)架构已成为训练LLMs的关键范例,最近的一些工作也将MoE纳入参数高效微调(PEFT),提出了低秩专家混合(MoE-LoRA),以增强低秩适配器学习复杂知识的能力。然而,MoE中传统的门控机制通常仅对选定的专家应用标量重加权,从而限制了它们潜在的表示和泛化能力。受到MoE-LoRA中低秩结构的启发和支持,我们提出了RotMoLE,一种专门用于低秩专家的MoE框架,具有额外的旋转门。除了简单的缩放之外,RotMoLE为每个选定的专家实现了一种旋转机制,从而能够更好地利用专家并进行专业化,以学习多样化的数据,尤其是在专家候选数量有限时。在复杂的多任务和多语言训练场景中的经验结果验证了我们的有效性。
🔬 方法详解
问题定义:现有MoE方法在专家选择后,通常使用标量权重对专家进行重加权,这种方式较为简单,无法充分挖掘和利用每个专家的潜在能力,尤其是在专家数量有限的情况下,容易导致模型表达能力受限,难以适应复杂场景下的多样化知识学习需求。
核心思路:RotMoLE的核心思路是在MoE的门控机制中引入旋转变换,对选定的低秩专家进行旋转操作,从而改变专家的特征表示,使其更好地适应当前输入。这种旋转变换能够更灵活地调整专家的输出,增强专家之间的差异性,提高模型的整体表达能力。
技术框架:RotMoLE基于MoE-LoRA框架,主要包含以下几个模块:输入层、低秩专家层、门控网络和输出层。与传统MoE不同的是,RotMoLE在门控网络选择专家后,不是简单地对专家输出进行加权求和,而是对每个选定的专家应用一个旋转矩阵进行变换,然后再进行加权求和。
关键创新:RotMoLE的关键创新在于引入了旋转门机制,取代了传统的标量重加权方式。这种旋转门机制能够更灵活地调整专家的输出,增强专家之间的差异性,提高模型的整体表达能力。此外,RotMoLE针对低秩专家进行了优化设计,使其能够更好地适应参数高效微调场景。
关键设计:RotMoLE的关键设计包括:1) 旋转矩阵的参数化方式,可以使用低秩分解来减少参数量;2) 旋转矩阵的初始化方式,可以使用正交初始化来保证训练的稳定性;3) 门控网络的结构设计,可以使用不同的神经网络结构来实现门控功能;4) 损失函数的设计,可以使用交叉熵损失函数来优化模型的性能。
🖼️ 关键图片
📊 实验亮点
RotMoLE在复杂的多任务和多语言训练场景中进行了实验验证,结果表明,RotMoLE能够显著提升模型的性能。具体来说,RotMoLE在多个benchmark数据集上取得了state-of-the-art的结果,并且相比于传统的MoE方法,RotMoLE能够更好地利用专家知识,提高模型的泛化能力。实验结果充分证明了RotMoLE的有效性和优越性。
🎯 应用场景
RotMoLE适用于需要处理复杂、多样化知识的场景,例如多任务学习、多语言翻译、跨领域知识迁移等。它可以应用于各种自然语言处理任务,如文本分类、问答系统、机器翻译等,提升模型在复杂场景下的性能和泛化能力。未来,RotMoLE有望在智能客服、知识图谱构建、智能推荐等领域发挥重要作用。
📄 摘要(原文)
While Large Language Models (LLMs) are commonly fine-tuned to handle domain-specific tasks before being applied to vertical applications, adapting them to complex scenarios with diverse specialized knowledge remains challenging. Meanwhile, Mixture-of-Experts (MoE) architecture has risen as a crucial paradigm for training LLMs, and some recent works have also incorporated MoE into Parameter-Efficient Fine-Tuning (PEFT) to propose the Mixture of Low-rank Experts (MoE-LoRA), to enhance the power of low-rank adapters for learning complicated knowledge. However, conventional gating mechanisms in MoE typically apply only a scalar reweighing to selected experts, thereby limiting their underlying capacity of representation and generalization. Motivated and enabled by the low-rank structures in MoE-LoRA, we propose RotMoLE, a specialized MoE framework for low-rank experts featuring an additional rotation gate. Beyond simple scaling, RotMoLE implements a rotation mechanism for each selected expert, enabling superior expert exploitation and specialization for learning diverse data, especially when expert candidates are limited. Empirical results on complex multi-task and multilingual training scenarios validate our effectiveness.