Multimodal Latent Language Modeling with Next-Token Diffusion

📄 arXiv: 2412.08635v1 📥 PDF

作者: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei

分类: cs.CL, cs.CV, cs.LG

发布日期: 2024-12-11


💡 一句话要点

提出LatentLM,通过下一token扩散的潜在语言建模统一处理多模态生成与理解任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 潜在变量模型 扩散模型 自回归生成 变分自编码器 多模态融合 文本到语音合成

📋 核心要点

  1. 多模态生成模型面临统一处理离散和连续数据的挑战,现有方法难以兼顾性能和可扩展性。
  2. LatentLM通过VAE将连续数据映射到潜在空间,并利用下一token扩散进行自回归生成,实现多模态数据的统一建模。
  3. 实验表明,LatentLM在图像生成、多模态理解和文本到语音合成等任务上均取得了显著的性能提升,并具有良好的可扩展性。

📝 摘要(中文)

本文提出了一种潜在语言建模(LatentLM)方法,旨在利用因果Transformer无缝集成离散数据(如文本和代码)与连续数据(如图像、音频、视频)。LatentLM使用变分自编码器(VAE)将连续数据表示为潜在向量,并引入下一token扩散机制用于这些向量的自回归生成。此外,为了解决方差崩溃问题,开发了$σ$-VAE,这对于自回归建模至关重要。大量实验表明,LatentLM在各种模态上都表现出有效性。在图像生成方面,LatentLM在性能和可扩展性上均优于扩散Transformer。当集成到多模态大型语言模型中时,LatentLM提供了一个通用接口,统一了多模态生成和理解。实验结果表明,在扩大训练token规模的情况下,LatentLM的性能优于Transfusion和向量量化模型。在文本到语音合成方面,LatentLM在说话人相似性和鲁棒性方面优于最先进的VALL-E 2模型,同时所需的解码步骤减少了10倍。这些结果确立了LatentLM作为一种高效且可扩展的方法,能够推进大型多模态模型的发展。

🔬 方法详解

问题定义:现有的多模态生成模型难以统一处理离散数据(如文本)和连续数据(如图像、音频),并且在处理连续数据时,常常面临方差崩溃等问题,限制了模型的生成质量和可扩展性。现有方法在不同模态之间切换时,往往需要复杂的架构设计和训练策略。

核心思路:LatentLM的核心思路是将连续数据通过VAE编码到潜在空间,然后在潜在空间中进行自回归生成。通过将所有模态的数据都映射到统一的潜在空间,LatentLM能够利用Transformer架构进行统一建模,从而简化了多模态模型的训练和推理过程。下一token扩散机制用于在潜在空间中生成连续的向量序列,从而实现对连续数据的自回归建模。

技术框架:LatentLM的整体框架包括以下几个主要模块:1) VAE编码器:将连续数据(如图像、音频)编码为潜在向量。2) Transformer解码器:利用因果Transformer对潜在向量序列进行自回归建模,预测下一个token的潜在向量。3) 下一token扩散模块:在Transformer解码器的基础上,引入扩散过程,用于生成下一个token的潜在向量。4) VAE解码器:将生成的潜在向量解码为连续数据。整个流程是,首先使用VAE将多模态数据编码到统一的潜在空间,然后使用Transformer和扩散模型在潜在空间中进行自回归生成,最后使用VAE解码器将潜在向量解码回原始模态。

关键创新:LatentLM的关键创新在于:1) 统一的潜在空间建模:通过VAE将不同模态的数据映射到统一的潜在空间,从而实现多模态数据的统一建模。2) 下一token扩散:引入扩散过程用于潜在向量的自回归生成,从而提高了生成质量和多样性。3) $σ$-VAE:为了解决方差崩溃问题,开发了$σ$-VAE,这对于自回归建模至关重要。与现有方法的本质区别在于,LatentLM不再需要针对不同模态设计不同的模型架构,而是利用统一的潜在空间和自回归生成框架,实现了多模态数据的无缝集成。

关键设计:LatentLM的关键设计包括:1) VAE的结构:VAE的结构需要根据具体的模态进行设计,例如,对于图像数据,可以使用卷积神经网络作为编码器和解码器。2) Transformer的结构:Transformer的结构可以采用标准的Transformer架构,也可以根据具体的任务进行调整。3) 扩散过程的参数:扩散过程的参数包括扩散步数、噪声水平等,这些参数需要根据具体的任务进行调整。4) $σ$-VAE的损失函数:$σ$-VAE的损失函数包括重构损失、KL散度和方差损失,其中方差损失用于约束潜在变量的方差,防止方差崩溃。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LatentLM在图像生成任务中超越了Diffusion Transformers,并在多模态大型语言模型中取得了与Transfusion和向量量化模型相当的性能。在文本到语音合成任务中,LatentLM在说话人相似性和鲁棒性方面优于VALL-E 2模型,同时解码步骤减少了10倍,表明其在生成质量和效率方面具有显著优势。

🎯 应用场景

LatentLM具有广泛的应用前景,包括多模态内容生成(如文本到图像、文本到音频)、多模态理解(如视觉问答、语音识别)以及跨模态检索等。该研究有助于开发更智能、更通用的多模态人工智能系统,例如,可以应用于智能助手、内容创作工具和人机交互界面等领域,提升用户体验和工作效率。

📄 摘要(原文)

Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop $σ$-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.