MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

作者: Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-21 (更新: 2025-10-13)

备注: Corrected typo in arxiv abstract

💡 一句话要点

提出RoE：一种基于专家路由随机性的超并行推理方法，提升MoE模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 MoE 超并行推理 专家路由 随机采样 推理加速 语言模型

📋 核心要点

现有LLM推理方法主要集中在序列层面，缺乏token层面的优化，限制了模型性能的进一步提升。
RoE通过在MoE模型中引入专家路由的随机性，为每个token生成多个专家输出并聚合，实现超并行缩放。
实验表明，RoE能使较小MoE模型达到更大模型的性能，同时显著降低推理计算成本，无需模型微调。

📝 摘要（中文）

大型语言模型（LLMs）的生成质量通常可以通过推理时序列级缩放方法（例如，思维链）来提高。本文介绍了一种互补的框架——超并行缩放，它可以在token级别提高预测质量。超并行缩放计算并聚合来自模型的单个token的多个输出提议。我们在混合专家（MoE）模型中实现了这个概念，称之为专家阵容（RoE）。RoE是一种无需训练的推理算法，可以将单个MoE转换为MoE的动态集成。RoE将受控的随机性注入到专家路由机制中，使其能够为每个token采样多个不同的专家，并聚合它们的输出，从而获得更准确的最终预测。为了克服计算成本，我们引入了一种高效的批处理策略和一种专门的KV缓存机制，以最大限度地减少计算和内存开销。例如，RoE使7B MoE模型能够匹配10.5B MoE模型的性能，同时推理计算量减少30%。这些收益是在不微调模型参数的情况下实现的。

🔬 方法详解

问题定义：论文旨在解决大型语言模型推理过程中，如何在token级别进一步提升模型性能的问题。现有方法主要集中在序列级别的缩放，例如Chain-of-Thought，而忽略了token内部的优化。MoE模型虽然具有参数效率高的优点，但其专家路由机制在token级别仍然存在提升空间。

核心思路：论文的核心思路是引入“超并行缩放”的概念，即为每个token生成多个不同的输出提议，并通过聚合这些提议来提高预测的准确性。具体而言，通过在MoE模型的专家路由机制中注入受控的随机性，使得每个token可以被路由到多个不同的专家，从而产生多个不同的输出。然后，将这些输出进行聚合，得到最终的预测结果。这样做的目的是利用不同专家的知识，提高预测的鲁棒性和准确性。

技术框架：RoE的核心在于修改了MoE模型的专家路由机制。标准的MoE模型通常为每个token选择一个或几个最合适的专家。而RoE则通过引入随机性，使得每个token有机会被路由到多个不同的专家。具体流程如下：1. 对于每个token，计算其与各个专家的相关性得分；2. 基于这些得分，通过一个随机采样过程，选择多个专家；3. 将token输入到这些专家中，得到多个输出；4. 将这些输出进行加权平均，得到最终的预测结果。为了降低计算成本，论文还提出了一种高效的批处理策略和专门的KV缓存机制。

关键创新：RoE最重要的技术创新点在于其超并行缩放的思想，以及将这种思想应用于MoE模型的专家路由机制。与传统的MoE模型相比，RoE能够利用更多专家的知识，提高预测的准确性和鲁棒性。此外，RoE是一种无需训练的推理算法，可以直接应用于现有的MoE模型，无需进行任何微调。

关键设计：RoE的关键设计包括：1. 专家路由的随机采样策略：如何控制随机性的强度，以平衡多样性和准确性？2. 输出聚合的加权平均方法：如何确定每个专家的权重，以最大化预测的准确性？3. 高效的批处理策略和KV缓存机制：如何降低计算和内存开销，以保证RoE的实用性？论文中具体使用了哪些参数设置和损失函数，目前未知。

🖼️ 关键图片

📊 实验亮点

RoE在实验中表现出色，能够使7B MoE模型达到10.5B MoE模型的性能，同时推理计算量减少30%。这些收益是在不微调模型参数的情况下实现的，表明RoE具有很高的效率和实用性。具体的性能数据和对比基线未知，但结果表明RoE是一种有效的提升MoE模型性能的方法。

🎯 应用场景

RoE具有广泛的应用前景，可以应用于各种基于MoE的语言模型，例如机器翻译、文本生成、对话系统等。通过提高模型在token级别的预测准确性，RoE可以显著提升这些应用的性能。此外，RoE无需模型微调，可以方便地集成到现有的系统中，降低了部署成本。未来，RoE还可以应用于其他类型的模型，例如视觉模型和多模态模型。

📄 摘要（原文）

The generation quality of large language models (LLMs) is often improved by utilizing inference-time sequence-level scaling methods (e.g., Chain-of-Thought). We introduce hyper-parallel scaling, a complementary framework that improves prediction quality at the token level. Hyper-parallel scaling computes and aggregates multiple output proposals for a single token from the model. We implement this concept in Mixture-of-Experts (MoE) models, which we refer to as Roster of Experts (RoE). RoE is a training-free inference algorithm that turns a single MoE into a dynamic ensemble of MoEs. RoE injects controlled stochasticity into the expert routing mechanism, enabling it to sample multiple diverse experts for each token and aggregate their outputs for a more accurate final prediction. To overcome the computational cost, we introduce an efficient batching strategy and a specialized KV-caching mechanism that minimizes compute and memory overhead. For example, RoE enables a 7B MoE model to match the performance of a 10.5B MoE model while using 30% less compute for inference. These gains are achieved without any fine-tuning of model parameters.

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理