Rethinking LLM Ensembling from the Perspective of Mixture Models

📄 arXiv: 2605.00419v1 📥 PDF

作者: Jiale Fu, Yuchu Jiang, Peijun Wu, Chonghan Liu, Joey Tianyi Zhou, Xu Yang

分类: cs.LG, cs.CL

发布日期: 2026-05-01

备注: ICML 2026 Spotlight

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于混合模型的LLM集成方法ME,显著提升推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型集成 混合模型 推理加速 token级路由 高效计算 自然语言处理

📋 核心要点

  1. 传统LLM集成方法计算成本高昂,需要对每个模型进行单独前向传播。
  2. ME将LLM集成视为混合模型,每步随机选择一个模型生成token,避免计算完整集成分布。
  3. 实验表明ME在性能相当的情况下,比传统集成方法快1.78倍-2.68倍。

📝 摘要(中文)

模型集成是提升机器学习模型性能的常用技术。传统方法通常对多个模型的输出分布进行平均,并选择概率最高的标签。这种思想自然地扩展到大型语言模型(LLM),虽然提高了性能,但也带来了巨大的计算成本。这种低效源于将传统集成方法直接应用于LLM,需要为每个模型进行单独的前向传播以显式计算集成分布。本文提出了类似混合模型的集成方法(ME)。通过将集成重新解释为混合模型,ME在每一步随机选择一个模型来生成下一个token,从而避免了显式计算完整集成分布的需求。ME在数学上等价于从集成分布中采样,但只需要调用一个模型,因此比传统集成方法快1.78倍-2.68倍。此外,这种视角将LLM集成和token级路由方法联系起来,表明LLM集成是路由方法的一个特例。我们的发现为高效的LLM集成开辟了新途径,并激发了对LLM token级路由策略的进一步探索。代码已开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)集成过程中计算效率低下的问题。传统的LLM集成方法需要对集成中的每个模型进行一次完整的前向传播,然后对它们的输出分布进行平均,这导致了显著的计算开销,尤其是在模型数量较多时。这种方法的痛点在于其计算复杂度与模型数量成正比,限制了其在资源受限环境中的应用。

核心思路:论文的核心思路是将LLM集成重新解释为混合模型。在这种视角下,集成的目标不再是显式地计算所有模型的输出分布并进行平均,而是模拟从集成分布中进行采样的过程。具体而言,ME方法在生成每个token时,随机选择集成中的一个模型进行预测,从而避免了对所有模型进行前向传播的需要。这种设计基于混合模型的思想,即整体分布可以看作是多个子分布的加权平均,而ME通过随机选择模型来近似这个加权平均的过程。

技术框架:ME方法的整体框架可以概括为以下几个步骤:1) 模型选择:在生成每个token之前,根据预定义的权重随机选择集成中的一个LLM。2) token生成:使用选定的LLM生成下一个token。3) 重复:重复步骤1和2,直到生成完整的序列。该框架的核心在于避免了对所有模型进行前向传播,而是通过随机选择模型来模拟集成效果。没有显式的训练阶段,ME可以直接应用于预训练的LLM。

关键创新:ME方法的关键创新在于其对LLM集成方式的重新思考。与传统方法不同,ME不是显式地计算集成分布,而是通过随机模型选择来隐式地模拟从集成分布中采样的过程。这种方法将LLM集成与token级路由方法联系起来,表明LLM集成可以看作是token级路由的一个特例。这种视角上的转变为高效LLM集成提供了新的思路。

关键设计:ME方法的关键设计在于模型选择的概率分布。论文中假设每个模型的权重是预先定义的,并且在整个生成过程中保持不变。模型选择的概率可以基于模型的性能、资源消耗或其他因素进行调整。此外,ME方法可以与各种LLM架构兼容,无需对模型本身进行修改。论文中没有提及特定的损失函数或网络结构,因为ME主要关注的是推理阶段的效率提升。

📊 实验亮点

实验结果表明,ME方法在性能与传统集成方法相当的情况下,实现了显著的加速。具体而言,ME比传统集成方法快1.78倍-2.68倍。这一结果表明,ME是一种高效且有效的LLM集成方法,能够在不牺牲性能的前提下显著降低计算成本。

🎯 应用场景

ME方法可应用于各种需要高效LLM集成的场景,例如移动设备上的自然语言处理、低延迟对话系统和大规模文本生成。该方法降低了LLM集成的计算成本,使其能够在资源受限的环境中部署。此外,ME为探索token级路由策略提供了新的思路,可能促进更高效的LLM架构设计。

📄 摘要(原文)

Model ensembling is a well-established technique for improving the performance of machine learning models. Conventionally, this involves averaging the output distributions of multiple models and selecting the most probable label. This idea has been naturally extended to large language models (LLMs), yielding improved performance but incurring substantial computational cost. This inefficiency stems from directly applying conventional ensemble implementation to LLMs, which require a separate forward pass for each model to explicitly compute the ensemble distribution. In this paper, we propose the Mixture-model-like Ensemble (ME). By reinterpreting the ensemble as a mixture model, ME stochastically selects a single model at each step to generate the next token, thereby avoiding the need to explicitly compute the full ensemble distribution. ME is mathematically equivalent to sampling from the ensemble distribution, but requires invoking only one model, making it 1.78x-2.68x faster than conventional ensemble. Furthermore, this perspective connects LLM ensembling and token-level routing methods, suggesting that LLM ensembling is a special case of routing methods. Our findings open new avenues for efficient LLM ensembling and motivate further exploration of token-level routing strategies for LLMs. Our code is available at https://github.com/jialefu/Mixture-model-like-Ensemble/.