Continuous Latent Diffusion Language Model
作者: Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-05-07
备注: 99 pages, 31 figures, 9 tables. Project page: https://hongcanguo.github.io/Cola-DLM/
💡 一句话要点
提出Cola DLM:一种连续潜在扩散语言模型,用于高效灵活的文本生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 扩散模型 文本生成 连续潜在空间 非自回归
📋 核心要点
- 现有自回归语言模型虽然强大,但在生成效率、表征学习和全局语义建模方面存在局限性,难以兼顾。
- Cola DLM通过分层潜在扩散模型,将文本生成分解为文本到潜在空间的映射、全局语义先验建模和条件解码三个阶段。
- 实验表明,Cola DLM在文本生成质量和缩放行为上表现出色,为跨离散文本和连续模态的统一建模提供了可能。
📝 摘要(中文)
大型语言模型在自回归范式下取得了显著成功,但高质量的文本生成不一定需要固定的从左到右的顺序。现有的替代方案仍然难以同时实现生成效率、可扩展的表征学习和有效的全局语义建模。我们提出了Cola DLM,一种分层潜在扩散语言模型,它通过分层信息分解来构建文本生成。Cola DLM首先使用Text VAE学习稳定的文本到潜在空间的映射,然后使用块因果DiT在连续潜在空间中建模全局语义先验,最后通过条件解码生成文本。从统一的马尔可夫路径角度来看,其扩散过程执行潜在先验传输,而不是token级别的观察恢复,从而将全局语义组织与局部文本实现分离。这种设计产生了一种更灵活的非自回归归纳偏置,支持连续空间中的语义压缩和先验拟合,并自然地扩展到其他连续模态。通过跨越4个研究问题和8个基准的实验,严格匹配的约20亿参数的自回归和LLaDA基线,以及高达约2000 EFLOPs的缩放曲线,我们确定了Cola DLM的有效总体配置,并验证了其强大的文本生成缩放行为。总而言之,结果表明分层连续潜在先验建模是严格的token级别语言建模的一种原则性替代方案,其中生成质量和缩放行为可能比似然性更好地反映模型能力,同时也为跨离散文本和连续模态的统一建模提供了一条具体的路径。
🔬 方法详解
问题定义:现有自回归语言模型在文本生成方面取得了显著进展,但其固有的从左到右的生成顺序限制了生成效率和全局语义建模能力。此外,现有非自回归方法在表征学习和生成质量方面仍有提升空间。因此,需要一种既能高效生成,又能有效建模全局语义的文本生成方法。
核心思路:Cola DLM的核心思路是将文本生成过程分解为三个阶段:首先,使用Text VAE学习文本到连续潜在空间的映射,将文本信息压缩到低维空间;然后,在连续潜在空间中使用块因果DiT建模全局语义先验,学习文本的整体结构和语义信息;最后,通过条件解码器将潜在空间表示解码为文本。这种分层结构允许模型独立地处理全局语义和局部文本实现,从而提高生成效率和灵活性。
技术框架:Cola DLM的整体框架包括三个主要模块:1) Text VAE:用于学习文本到连续潜在空间的映射,将文本编码为潜在向量。2) 块因果DiT:在连续潜在空间中建模全局语义先验,学习文本的整体结构和语义信息。3) 条件解码器:将潜在空间表示解码为文本,生成最终的文本序列。整个流程首先使用Text VAE将文本编码为潜在向量,然后使用块因果DiT对潜在向量进行扩散过程,最后使用条件解码器将扩散后的潜在向量解码为文本。
关键创新:Cola DLM的关键创新在于其分层连续潜在空间建模方法。与传统的token级别语言模型不同,Cola DLM在连续潜在空间中建模全局语义先验,从而将全局语义组织与局部文本实现分离。这种设计允许模型更灵活地控制文本生成过程,并支持语义压缩和先验拟合。此外,Cola DLM采用块因果DiT作为扩散模型,可以有效地建模连续潜在空间中的复杂依赖关系。
关键设计:在Text VAE中,使用了标准的VAE结构,并采用KL散度作为正则化项,以保证潜在空间的平滑性。在块因果DiT中,使用了Transformer结构,并采用块因果掩码来保证因果性。在条件解码器中,使用了Transformer结构,并采用注意力机制来融合潜在向量和文本信息。损失函数包括VAE的重构损失和KL散度损失,以及DiT的扩散损失。参数设置方面,模型参数量约为20亿,训练数据量约为100GB。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Cola DLM在多个文本生成基准上取得了与自回归模型相当甚至更好的性能。特别是在长文本生成方面,Cola DLM表现出更强的优势。此外,Cola DLM还展现出良好的缩放行为,随着模型规模的增大,生成质量持续提升。在与参数量相当的自回归和LLaDA基线模型对比中,Cola DLM展现出竞争力。
🎯 应用场景
Cola DLM具有广泛的应用前景,包括文本生成、文本摘要、机器翻译、对话生成等。其分层结构和连续潜在空间建模方法使其能够更好地处理长文本和复杂语义,从而提高生成质量和效率。此外,Cola DLM还可以扩展到其他连续模态,如图像和音频,实现跨模态的统一建模。
📄 摘要(原文)
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.