LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

📄 arXiv: 2604.11748v1 📥 PDF

作者: Yuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu

分类: cs.CL, cs.LG

发布日期: 2026-04-13

🔗 代码/项目: GITHUB


💡 一句话要点

LangFlow:首个媲美离散扩散的连续扩散语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 连续扩散模型 语言建模 Flow Matching 噪声调度 自条件反射 文本生成 自然语言处理

📋 核心要点

  1. 现有连续扩散语言模型在语言建模任务上性能落后于离散模型,存在性能差距。
  2. LangFlow通过Bregman散度连接嵌入空间DLM与Flow Matching,并优化噪声调度和训练协议。
  3. LangFlow在LM1B和OpenWebText上取得了优异的困惑度,并在零样本迁移学习中超越了自回归模型。

📝 摘要(中文)

连续扩散模型在图像等领域取得了显著成果。然而,在语言建模中,现有的连续扩散语言模型(DLM)落后于离散模型。本文提出了LangFlow,这是第一个能够与离散扩散模型相媲美的连续DLM。该方法通过Bregman散度将嵌入空间DLM与Flow Matching连接起来,并引入了三个关键创新:(1) 一种基于ODE的新型NLL下界,用于对基于连续流的语言模型进行原则性评估;(2) 一种用于噪声调度的信息均匀原则,推动了基于Gumbel分布的可学习调度器;(3) 一种改进的训练协议,结合了自条件反射,从而提高了似然性和样本质量。LangFlow在多个基准测试中表现出色,在LM1B上达到了30.0的困惑度(PPL),在OpenWebText上达到了24.6。它在相当的规模上与顶级离散DLM相匹配,并在多个基准测试中的零样本迁移中超越了自回归基线。LangFlow提供了明确的证据,表明连续扩散是语言建模中一种有竞争力和前景的范例。

🔬 方法详解

问题定义:现有连续扩散语言模型在语言建模任务中的表现不如离散模型,无法充分利用连续扩散模型的优势。痛点在于缺乏有效的训练方法和评估指标,以及合适的噪声调度策略,导致模型性能受限。

核心思路:LangFlow的核心思路是将连续扩散模型与Flow Matching相结合,利用Bregman散度连接嵌入空间,并引入信息均匀原则来优化噪声调度。通过改进训练协议,提升模型的似然性和生成质量,从而缩小与离散模型的差距。

技术框架:LangFlow的整体框架包括以下几个主要模块:(1) 嵌入空间扩散模型,负责将离散文本转换为连续嵌入表示;(2) Flow Matching模块,利用Bregman散度将扩散过程与连续流进行匹配;(3) 可学习噪声调度器,基于Gumbel分布,根据信息均匀原则动态调整噪声水平;(4) 训练模块,采用自条件反射等技术,优化模型参数。

关键创新:LangFlow的关键创新在于:(1) 提出了基于ODE的NLL下界,用于评估连续流语言模型;(2) 引入了信息均匀原则,并设计了基于Gumbel分布的可学习噪声调度器;(3) 采用了自条件反射的训练协议。这些创新使得连续扩散模型在语言建模任务中能够与离散模型相媲美。

关键设计:LangFlow的关键设计包括:(1) 使用Bregman散度来度量嵌入空间中的距离,从而更好地连接扩散过程和连续流;(2) 基于Gumbel分布的可学习噪声调度器,能够根据数据分布动态调整噪声水平;(3) 自条件反射训练协议,通过将模型自身的预测作为输入,提高模型的稳定性和生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LangFlow在LM1B数据集上取得了30.0的困惑度,在OpenWebText数据集上取得了24.6的困惑度。该模型在性能上与顶级的离散扩散模型相当,并在多个零样本迁移学习任务中超越了自回归模型,证明了连续扩散模型在语言建模中的潜力。

🎯 应用场景

LangFlow的潜在应用领域包括文本生成、机器翻译、对话系统等。该研究的实际价值在于证明了连续扩散模型在语言建模中的可行性和竞争力,为未来的研究提供了新的方向。未来影响可能包括开发更高效、更灵活的语言模型,并推动自然语言处理技术的进步。

📄 摘要(原文)

Continuous diffusion models have achieved strong performance across domains such as images. However, in language modeling, prior continuous diffusion language models (DLMs) lag behind discrete counterparts. In this work, we close this gap with LangFlow, the first continuous DLM to rival discrete diffusion. Our approach connects embedding-space DLMs to Flow Matching via Bregman divergence and introduces three key innovations: (1) a novel ODE-based NLL bound for principled evaluation of continuous flow-based language models; (2) an information-uniform principle for noise scheduling, motivating a learnable scheduler based on a Gumbel distribution; and (3) an improved training protocol incorporating self-conditioning, which enhances both likelihood and sample quality.LangFlow achieves strong performance across benchmarks, reaching a perplexity (PPL) of 30.0 on LM1B and 24.6 on OpenWebText. It matches top discrete DLMs at comparable scale and surpasses autoregressive baselines in zero-shot transfer across multiple benchmarks. LangFlow provides clear evidence that continuous diffusion is a competitive and promising paradigm for language modeling. https://github.com/nealchen2003/LangFlow