TextLDM: Language Modeling with Continuous Latent Diffusion
作者: Jiaxiu Jiang, Jingjing Ren, Wenbo Li, Bo Wang, Haoze Sun, Yijun Yang, Jianhui Liu, Yanbing Zhang, Shenghe Zheng, Yuan Zhang, Haoyang Huang, Nan Duan, Wangmeng Zuo
分类: cs.CL
发布日期: 2026-05-08
💡 一句话要点
提出TextLDM:将视觉扩散模型范式迁移至语言建模,实现统一的生成式架构。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 语言建模 流匹配 Transformer 多模态统一 潜空间表征
📋 核心要点
- 现有扩散语言模型在处理离散文本时面临潜空间表征质量不足的问题,难以直接复用视觉领域高效的DiT架构。
- 提出TextLDM框架,通过Transformer-VAE将文本映射至连续空间,并引入REPA机制与预训练模型对齐,增强语义表达。
- 实验证明TextLDM在OpenWebText2上大幅超越现有扩散语言模型,性能与GPT-2持平,验证了视觉DiT范式在文本领域的有效性。
📝 摘要(中文)
在VAE潜空间中利用流匹配(Flow Matching)训练的扩散Transformer(DiT)已在图像和视频生成领域实现了统一。为了向视觉合成与文本生成统一架构迈进,本文提出了TextLDM,将视觉潜空间扩散范式应用于语言建模,且仅需极小的架构调整。该方法通过基于Transformer的VAE将离散文本标记映射为连续潜变量,并引入表征对齐(REPA)机制,利用冻结的预训练语言模型增强潜空间的语义表达能力。随后,标准的DiT在潜空间执行流匹配。研究发现,仅靠重构保真度不足以支撑高质量生成,通过REPA对齐潜特征至关重要。在OpenWebText2数据集上的实验表明,TextLDM显著优于先前的扩散语言模型,并在相同设置下与GPT-2性能相当,为多模态统一扩散架构奠定了基础。
🔬 方法详解
问题定义:论文旨在解决如何将视觉领域成熟的“潜空间扩散+流匹配”范式迁移至文本生成任务中。现有方法在处理离散文本时,往往难以获得高质量的连续潜空间表征,导致生成质量受限。
核心思路:核心思想是将文本视为连续信号处理,通过VAE将离散Token压缩为连续潜变量,并利用预训练语言模型的语义先验通过REPA(Representation Alignment)对齐潜空间,从而使DiT能够像处理图像一样处理文本。
技术框架:整体架构包含三个阶段:首先是基于Transformer的VAE,负责离散Token与连续潜变量的编解码;其次是REPA模块,通过与冻结的预训练语言模型对齐,确保潜变量具备丰富的语义信息;最后是标准的DiT骨干网络,在潜空间执行流匹配任务。
关键创新:最重要的创新在于引入了REPA机制,证明了单纯的重构损失不足以构建高质量的文本潜空间,必须通过语义对齐来弥补扩散模型在文本生成中的语义缺失。
关键设计:采用了标准的DiT架构,保持与视觉任务一致;训练过程基于OpenWebText2数据集,通过流匹配(Flow Matching)目标函数进行优化,确保了架构的简洁性与通用性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,TextLDM在OpenWebText2数据集上显著优于现有的扩散语言模型基线。在相同参数量与训练设置下,其生成质量成功追平了经典的GPT-2模型,证明了该方法在保持架构简洁性的同时,能够有效捕捉复杂的语言分布,实现了视觉与文本生成范式的成功融合。
🎯 应用场景
TextLDM为多模态生成任务提供了统一的架构基础,未来可应用于文本生成、代码补全、对话系统等领域。其核心价值在于验证了扩散模型在处理离散序列时的潜力,为构建视觉、文本、音频一体化的通用生成式人工智能模型提供了技术路径。
📄 摘要(原文)
Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.