ELF: Embedded Language Flows

📄 arXiv: 2605.10938v1 📥 PDF

作者: Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-11

备注: Tech Report. Project webpage: https://github.com/lillian039/ELF


💡 一句话要点

提出嵌入语言流(ELF)模型,通过连续时间流匹配实现高效的离散文本生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 流匹配 语言建模 嵌入空间 生成式AI 无分类器引导

📋 核心要点

  1. 现有扩散语言模型多在离散标记空间操作,难以直接迁移图像领域成熟的连续扩散技术,限制了模型性能与采样效率。
  2. ELF模型采用连续时间流匹配框架,在连续嵌入空间进行扩散过程,仅在最终步骤通过共享权重网络映射回离散标记。
  3. 实验证明ELF在生成质量上大幅超越现有基线,且在更少的采样步数下实现了更优的性能,验证了连续空间建模的有效性。

📝 摘要(中文)

扩散模型与流模型已成为图像和视频等连续数据生成领域的主流方法,其成功激发了在语言建模中应用此类技术的兴趣。与图像领域不同,当前领先的扩散语言模型(DLMs)主要在离散标记(tokens)空间上运行。本文证明,通过对离散域进行极小程度的适配,连续扩散语言模型同样可以表现出色。我们提出了嵌入语言流(ELF),这是一类基于连续时间流匹配(Flow Matching)的连续嵌入空间扩散模型。与现有DLMs不同,ELF在生成过程的大部分时间里保持在连续嵌入空间,仅在最后一步通过共享权重的网络映射为离散标记。这种架构使得直接应用图像扩散模型中的成熟技术(如无分类器引导CFG)变得简单直接。实验表明,ELF在生成质量和采样效率上均显著优于现有的离散与连续DLMs,为构建高效的连续扩散语言模型提供了新路径。

🔬 方法详解

问题定义:现有扩散语言模型(DLMs)主要在离散标记空间进行扩散,这导致无法直接利用图像领域中如无分类器引导(CFG)等高效的连续扩散技术,且离散空间的非连续性增加了优化难度。

核心思路:ELF的核心思想是将语言生成视为连续嵌入空间中的流匹配问题。通过将离散标记映射到连续向量空间,利用流匹配模型学习从噪声分布到数据分布的轨迹,从而规避离散空间的优化瓶颈。

技术框架:模型整体架构基于连续时间流匹配。在生成过程中,模型在连续嵌入空间内演化,直至最后一步。此时,通过一个共享权重的映射网络(Shared-weight network),将连续向量投影回离散的词表空间,完成从连续流到离散标记的转换。

关键创新:最重要的创新在于将扩散过程与离散化过程解耦。ELF在大部分生成周期内保持连续性,仅在末端进行离散化,这种设计使得图像领域的连续扩散技术(如CFG)能够无缝迁移至语言模型中,显著提升了生成质量。

关键设计:模型采用了连续时间流匹配作为基础框架,通过共享权重的网络结构实现嵌入空间到离散标记的映射。该设计不仅简化了训练目标,还通过减少采样步数提升了推理效率,同时保持了对离散文本分布的精确建模能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,ELF在生成质量指标上显著优于现有的离散与连续扩散语言模型。通过引入无分类器引导(CFG),ELF在更少的采样步数下实现了更低的困惑度(Perplexity)和更高的生成多样性,证明了其在计算效率与生成效果之间的卓越平衡,确立了其作为新一代高效语言生成模型基准的地位。

🎯 应用场景

ELF模型在自然语言生成领域具有广泛应用前景,特别适用于需要高质量、长文本生成的场景,如创意写作、对话系统及代码生成。其高效的采样特性使其在实时交互式AI应用中极具竞争力,同时为多模态生成任务中语言与视觉特征的对齐提供了统一的连续建模框架。

📄 摘要(原文)

Diffusion and flow-based models have become the de facto approaches for generating continuous data, e.g., in domains such as images and videos. Their success has attracted growing interest in applying them to language modeling. Unlike their image-domain counterparts, today's leading diffusion language models (DLMs) primarily operate over discrete tokens. In this paper, we show that continuous DLMs can be made effective with minimal adaptation to the discrete domain. We propose Embedded Language Flows (ELF), a class of diffusion models in continuous embedding space based on continuous-time Flow Matching. Unlike existing DLMs, ELF predominantly stays within the continuous embedding space until the final time step, where it maps to discrete tokens using a shared-weight network. This formulation makes it straightforward to adapt established techniques from image-domain diffusion models, e.g., classifier-free guidance (CFG). Experiments show that ELF substantially outperforms leading discrete and continuous DLMs, achieving better generation quality with fewer sampling steps. These results suggest that ELF offers a promising path toward effective continuous DLMs.