Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection

📄 arXiv: 2406.00023v4 📥 PDF

作者: Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Binfan Zheng, Yi Lin, Rongqian Zhao, Xin Chen

分类: cs.CL

发布日期: 2024-05-24 (更新: 2025-10-09)


💡 一句话要点

提出专家-令牌共振MoE模型,通过双向路由和效率亲和驱动选择提升训练效率和模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 MoE 双向路由 专家选择 令牌选择

📋 核心要点

  1. 现有MoE模型存在令牌到专家路由效率低,通信开销大,以及专家同质化导致计算冗余的问题。
  2. ETR通过自适应协调令牌选择路由和专家选择路由,优化令牌-专家交互,提升训练成功率并降低专家容量需求。
  3. 实验结果表明,ETR在训练效率和模型性能上均优于现有MoE实现,并在多个基准测试中取得显著提升。

📝 摘要(中文)

本文提出了一种名为专家-令牌共振(ETR)的双向路由机制,旨在重新设计MoE架构中的专家-令牌交互。现有MoE模型存在令牌到专家路由效率低下和专家同质化两个关键限制。ETR的核心思想是在训练早期阶段采用令牌选择路由(TCR),后期阶段采用专家选择路由(ECR),从而最大化训练成功率并降低专家容量下限。ETR包含三个技术创新:基于亲和性的路由架构,利用分组平均池化(GrAP)降低计算复杂度;双向选择机制,使令牌和专家都能主动参与路由过程;自适应容量策略,动态调整专家边界。实验表明,ETR在Ascend NPU集群上实现了5.4%-46.6%的端到端训练效率提升,并在GDAD、GPQA、HumanEval和TeleQnA基准测试中获得了9.7%-14.5%的性能提升。

🔬 方法详解

问题定义:现有MoE模型在扩展大规模语言模型时面临两个主要问题:一是令牌到专家的路由效率低下,导致过多的通信开销;二是专家同质化,使得不同专家执行相似的计算,造成计算资源的浪费。现有的方法通常单独解决这两个问题,无法同时提升训练效率和模型性能。

核心思路:论文的核心思路是提出一种双向路由机制,即专家-令牌共振(ETR)。ETR的关键在于动态地协调令牌选择路由(TCR)和专家选择路由(ECR)。在训练初期,TCR更有效,而在训练后期,ECR更有效。这种动态调整能够最大化训练成功率,并降低专家容量的下限。

技术框架:ETR的整体框架包含三个主要组成部分:(1) 基于亲和性的路由架构,使用分组平均池化(GrAP)来降低计算复杂度,同时保持正交性以防止专家同质化;(2) 双向选择机制,允许令牌和专家基于余弦相似度得分主动参与路由过程;(3) 自适应容量策略,根据训练进度动态调整专家容量边界,消除All-to-All操作中的通信瓶颈。

关键创新:ETR最重要的创新在于其双向路由机制,它不再是简单地由令牌选择专家,而是允许令牌和专家双向选择,从而实现更有效的资源分配和更高的训练效率。此外,自适应容量策略也是一个关键创新,它能够根据训练的实际情况动态调整专家容量,避免资源浪费和通信瓶颈。

关键设计:ETR的关键设计包括:(1) 使用分组平均池化(GrAP)来计算令牌和专家之间的亲和性,降低了计算复杂度,同时保持了专家的多样性。(2) 基于余弦相似度得分的双向选择机制,允许令牌和专家根据彼此的匹配程度进行选择。(3) 自适应容量策略,通过监控训练进度动态调整专家容量,避免了通信瓶颈。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ETR在Ascend NPU集群上实现了5.4%-46.6%的端到端训练效率提升。在GDAD、GPQA、HumanEval和TeleQnA等基准测试中,ETR的性能提升幅度为9.7%-14.5%,显著优于现有的MoE实现。

🎯 应用场景

该研究成果可广泛应用于大规模语言模型的训练和部署,尤其是在资源受限的环境下。通过提高训练效率和模型性能,ETR能够加速AI模型的开发和应用,例如在自然语言处理、机器翻译、智能客服等领域。

📄 摘要(原文)

Mixture-of-Experts (MoE) architectures enable efficient scaling of large language models by activating only a subset of parameters per input. However, existing MoE models suffer from two critical limitations: (1) inefficient token-to-expert routing that causes excessive communication overhead, and (2) expert homogenization that leads to redundant computations. Current approaches address these challenges separately, failing to achieve simultaneous improvements in both training efficiency and model performance. We present Expert-Token Resonance (ETR), a theoretically-grounded bidirectional routing mechanism that fundamentally reimagines expert-token interactions in MoE architectures. Our key insight is that optimal routing requires adaptive coordination between token-choice routing (TCR) during early training phases and expert-choice routing (ECR) in later stages. We prove that this dynamic approach maximizes training success rate (the probability of correct token-expert assignments) while reducing the expert capacity lower bound by up to 40%. ETR incorporates three technical innovations: (1) an affinity-based routing architecture using Grouped Average Pooling (GrAP) that reduces computational complexity from O(d^2) to O(d^2/D) while maintaining orthogonality to prevent expert homogenization; (2) a bidirectional selection mechanism that enables both tokens and experts to actively participate in the routing process based on cosine similarity scores; and (3) an adaptive capacity strategy that dynamically adjusts expert bounds based on training progress, eliminating communication bubbles in All-to-All operations. Extensive experiments on Ascend NPU clusters demonstrate that ETR achieves 5.4%-46.6% improvements in end-to-end training efficiency compared to baseline MoE implementations, with 9.7%-14.5% performance gains across GDAD, GPQA, HumanEval, and TeleQnA benchmarks.