Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching

📄 arXiv: 2604.15009v1 📥 PDF

作者: Aihua Li

分类: cs.AI, cs.LG

发布日期: 2026-04-16


💡 一句话要点

提出MoE-FM框架,加速非自回归语言模型推理,显著提升效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Flow Matching 混合专家模型 非自回归语言模型 快速推理 生成模型

📋 核心要点

  1. Flow Matching在语言建模中难以表示复杂潜在分布,限制了其性能。
  2. MoE-FM通过混合专家分解向量场,捕捉潜在空间复杂传输几何。
  3. YAN模型基于MoE-FM,在保证生成质量的同时,推理速度大幅提升。

📝 摘要(中文)

Flow Matching (FM) 保留了扩散模型的生成质量,同时显著加快了推理速度,使其成为一种引人注目的生成建模范式。然而,当应用于语言建模时,FM在表示具有不规则几何形状(如各向异性和多模态)的复杂潜在分布方面存在根本性限制。为了解决这些挑战,我们提出了一个混合专家Flow Matching (MoE-FM) 框架,该框架通过将复杂的全局传输几何分解为局部专门化的向量场来捕获潜在空间中的复杂全局传输几何。基于 MoE-FM,我们开发了一种非自回归 (NAR) 语言建模方法,名为 YAN,它使用 Transformer 和 Mamba 架构进行实例化。在多个下游任务中,YAN 实现了与自回归 (AR) 和基于扩散的 NAR 语言模型相当的生成质量,同时仅需要三个采样步骤。这实现了比 AR 基线快 40 倍的速度,以及比扩散语言模型快高达 1000 倍的速度,证明了语言建模的显著效率优势。

🔬 方法详解

问题定义:论文旨在解决Flow Matching在语言建模中表示复杂潜在分布的局限性问题。现有方法难以有效处理各向异性和多模态等复杂情况,导致生成质量下降和推理效率受限。

核心思路:论文的核心思路是将复杂的全局传输几何分解为多个局部专门化的向量场,每个向量场由一个专家网络负责。通过混合多个专家,模型可以更好地捕捉潜在空间中的复杂结构,从而提高生成质量和推理效率。

技术框架:MoE-FM框架包含以下主要模块:1) 专家网络:多个专家网络,每个网络学习一个局部向量场;2) 门控网络:用于动态地选择和组合不同专家的输出;3) Flow Matching目标函数:用于训练专家网络和门控网络,使其能够准确地捕捉潜在空间中的传输几何。YAN模型基于MoE-FM,采用Transformer或Mamba架构作为骨干网络,并使用非自回归的方式进行生成。

关键创新:论文的关键创新在于提出了MoE-FM框架,该框架能够有效地捕捉潜在空间中的复杂传输几何,从而提高了Flow Matching在语言建模中的性能。与传统的Flow Matching方法相比,MoE-FM能够更好地处理各向异性和多模态等复杂情况,从而提高了生成质量和推理效率。

关键设计:MoE-FM的关键设计包括:1) 专家网络的数量和结构;2) 门控网络的选择和训练;3) Flow Matching目标函数的具体形式;4) YAN模型的非自回归生成方式。论文中可能详细描述了这些参数的选择和优化过程,以及它们对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,YAN模型在多个下游任务中实现了与自回归和基于扩散的非自回归语言模型相当的生成质量,同时推理速度提升显著。具体而言,YAN模型比AR基线快40倍,比扩散语言模型快高达1000倍,展示了巨大的效率优势。

🎯 应用场景

该研究成果可应用于各种需要快速生成文本的场景,例如机器翻译、文本摘要、对话生成等。通过显著提升推理速度,该方法有望降低语言模型的部署成本,并促进其在资源受限环境中的应用。未来,该技术可能推动更高效、更智能的自然语言处理系统的发展。

📄 摘要(原文)

Flow matching retains the generation quality of diffusion models while enabling substantially faster inference, making it a compelling paradigm for generative modeling. However, when applied to language modeling, it exhibits fundamental limitations in representing complex latent distributions with irregular geometries, such as anisotropy and multimodality. To address these challenges, we propose a mixture-of-experts flow matching (MoE-FM) framework, which captures complex global transport geometries in latent space by decomposing them into locally specialized vector fields. Building on MoE-FM, we develop a non-autoregressive (NAR) language modeling approach, named YAN, instantiated with both Transformer and Mamba architectures. Across multiple downstream tasks, YAN achieves generation quality on par with both autoregressive (AR) and diffusion-based NAR language models, while requiring as few as three sampling steps. This yields a $40\times$ speedup over AR baselines and up to a $10^3\times$ speedup over diffusion language models, demonstrating substantial efficiency advantages for language modeling.