MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

📄 arXiv: 2509.17238v2 📥 PDF

作者: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-21 (更新: 2025-10-13)

备注: Corrected typo in arxiv abstract


💡 一句话要点

提出RoE:一种基于专家路由随机性的超并行推理方法,提升MoE模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 MoE 超并行推理 专家路由 随机采样 推理加速 语言模型

📋 核心要点

  1. 现有LLM推理方法主要集中在序列层面,缺乏token层面的优化,限制了模型性能的进一步提升。
  2. RoE通过在MoE模型中引入专家路由的随机性,为每个token生成多个专家输出并聚合,实现超并行缩放。
  3. 实验表明,RoE能使较小MoE模型达到更大模型的性能,同时显著降低推理计算成本,无需模型微调。

📝 摘要(中文)

大型语言模型(LLMs)的生成质量通常可以通过推理时序列级缩放方法(例如,思维链)来提高。本文介绍了一种互补的框架——超并行缩放,它可以在token级别提高预测质量。超并行缩放计算并聚合来自模型的单个token的多个输出提议。我们在混合专家(MoE)模型中实现了这个概念,称之为专家阵容(RoE)。RoE是一种无需训练的推理算法,可以将单个MoE转换为MoE的动态集成。RoE将受控的随机性注入到专家路由机制中,使其能够为每个token采样多个不同的专家,并聚合它们的输出,从而获得更准确的最终预测。为了克服计算成本,我们引入了一种高效的批处理策略和一种专门的KV缓存机制,以最大限度地减少计算和内存开销。例如,RoE使7B MoE模型能够匹配10.5B MoE模型的性能,同时推理计算量减少30%。这些收益是在不微调模型参数的情况下实现的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型推理过程中,如何在token级别进一步提升模型性能的问题。现有方法主要集中在序列级别的缩放,例如Chain-of-Thought,而忽略了token内部的优化。MoE模型虽然具有参数效率高的优点,但其专家路由机制在token级别仍然存在提升空间。

核心思路:论文的核心思路是引入“超并行缩放”的概念,即为每个token生成多个不同的输出提议,并通过聚合这些提议来提高预测的准确性。具体而言,通过在MoE模型的专家路由机制中注入受控的随机性,使得每个token可以被路由到多个不同的专家,从而产生多个不同的输出。然后,将这些输出进行聚合,得到最终的预测结果。这样做的目的是利用不同专家的知识,提高预测的鲁棒性和准确性。

技术框架:RoE的核心在于修改了MoE模型的专家路由机制。标准的MoE模型通常为每个token选择一个或几个最合适的专家。而RoE则通过引入随机性,使得每个token有机会被路由到多个不同的专家。具体流程如下:1. 对于每个token,计算其与各个专家的相关性得分;2. 基于这些得分,通过一个随机采样过程,选择多个专家;3. 将token输入到这些专家中,得到多个输出;4. 将这些输出进行加权平均,得到最终的预测结果。为了降低计算成本,论文还提出了一种高效的批处理策略和专门的KV缓存机制。

关键创新:RoE最重要的技术创新点在于其超并行缩放的思想,以及将这种思想应用于MoE模型的专家路由机制。与传统的MoE模型相比,RoE能够利用更多专家的知识,提高预测的准确性和鲁棒性。此外,RoE是一种无需训练的推理算法,可以直接应用于现有的MoE模型,无需进行任何微调。

关键设计:RoE的关键设计包括:1. 专家路由的随机采样策略:如何控制随机性的强度,以平衡多样性和准确性?2. 输出聚合的加权平均方法:如何确定每个专家的权重,以最大化预测的准确性?3. 高效的批处理策略和KV缓存机制:如何降低计算和内存开销,以保证RoE的实用性?论文中具体使用了哪些参数设置和损失函数,目前未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RoE在实验中表现出色,能够使7B MoE模型达到10.5B MoE模型的性能,同时推理计算量减少30%。这些收益是在不微调模型参数的情况下实现的,表明RoE具有很高的效率和实用性。具体的性能数据和对比基线未知,但结果表明RoE是一种有效的提升MoE模型性能的方法。

🎯 应用场景

RoE具有广泛的应用前景,可以应用于各种基于MoE的语言模型,例如机器翻译、文本生成、对话系统等。通过提高模型在token级别的预测准确性,RoE可以显著提升这些应用的性能。此外,RoE无需模型微调,可以方便地集成到现有的系统中,降低了部署成本。未来,RoE还可以应用于其他类型的模型,例如视觉模型和多模态模型。

📄 摘要(原文)

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.