Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

作者: Peng Gao, Le Zhuo, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li

分类: cs.CV

发布日期: 2024-05-09 (更新: 2024-06-13)

备注: Technical Report; Code at: https://github.com/Alpha-VLLM/Lumina-T2X

💡 一句话要点

Lumina-T2X：提出基于流的大型扩散Transformer，实现文本到任意模态、分辨率和时长的生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散Transformer 多模态生成 文本到图像 文本到视频 高分辨率生成 长视频生成 统一框架

📋 核心要点

现有扩散Transformer在生成任意分辨率和时长的图像和视频方面缺乏足够的实现细节，限制了其应用。
Lumina-T2X提出了一种统一的框架Flag-DiT，通过token化潜在空间和引入可学习占位符，实现跨模态、跨分辨率的生成。
实验表明，Lumina-T2X在计算成本上优于传统DiT，并展现出分辨率外推、高分辨率编辑和生成一致性3D视图的能力。

📝 摘要（中文）

本文介绍了Lumina-T2X系列，这是一组基于流的大型扩散Transformer（Flag-DiT），配备零初始化注意力机制，旨在将噪声转化为图像、视频、多视角3D对象和音频片段，并以文本指令为条件。通过对潜在时空空间进行token化，并结合可学习的占位符（如[nextline]和[nextframe] tokens），Lumina-T2X无缝地统一了不同模态在各种时空分辨率下的表示。这种统一的方法使得可以在单个框架内针对不同模态进行训练，并允许在推理过程中灵活生成任意分辨率、宽高比和长度的多模态数据。RoPE、RMSNorm和流匹配等先进技术增强了Flag-DiT的稳定性、灵活性和可扩展性，使得Lumina-T2X模型能够扩展到70亿参数，并将上下文窗口扩展到128K tokens。这对于使用Lumina-T2I模型创建超高清图像以及使用Lumina-T2V模型创建720p长视频特别有益。值得注意的是，由50亿参数Flag-DiT驱动的Lumina-T2I仅需6亿参数的朴素DiT 35%的训练计算成本。进一步的综合分析强调了Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图以及合成具有无缝过渡的视频方面的初步能力。我们期望Lumina-T2X的开源将进一步促进生成式人工智能社区的创造力、透明度和多样性。

🔬 方法详解

问题定义：现有方法难以在统一框架下处理多种模态（图像、视频、3D对象、音频）的生成，并且在生成高分辨率、长时序的内容时，计算成本高昂，缺乏足够的灵活性和可扩展性。此外，现有扩散模型在处理不同分辨率和宽高比的数据时，需要针对特定任务进行调整，通用性较差。

核心思路：Lumina-T2X的核心思路是利用基于流的大型扩散Transformer (Flag-DiT) 作为一个统一的框架，通过token化潜在空间，并引入可学习的占位符（如[nextline]和[nextframe] tokens），从而实现对不同模态、不同分辨率和时长的统一表示和生成。这种设计允许模型在单个框架内学习不同模态的共性，并灵活地生成各种类型的数据。

技术框架：Lumina-T2X的整体框架包括以下几个主要模块：1) 文本编码器：将文本指令转换为embedding向量。2) 潜在空间token化器：将图像、视频等数据编码到潜在空间，并将其离散化为tokens。3) Flag-DiT：基于流的扩散Transformer，用于学习从噪声到数据的映射关系。4) 解码器：将潜在空间的tokens解码为最终的图像、视频等数据。整个流程是：文本指令 -> 文本embedding -> 噪声tokens -> Flag-DiT -> 数据tokens -> 解码器 -> 生成结果。

关键创新：Lumina-T2X的关键创新在于其统一的框架Flag-DiT，它能够处理多种模态的数据，并且具有良好的可扩展性。通过引入零初始化注意力机制、RoPE、RMSNorm和流匹配等技术，增强了模型的稳定性、灵活性和可扩展性。此外，可学习的占位符的设计使得模型能够处理不同分辨率和时长的生成任务。

关键设计：Flag-DiT采用了Transformer架构，并进行了多项改进。零初始化注意力机制有助于训练的稳定性。RoPE (Rotary Position Embedding) 能够更好地处理长序列数据。RMSNorm (Root Mean Square Layer Normalization) 是一种高效的归一化方法。流匹配 (Flow Matching) 用于加速扩散模型的训练过程。模型参数规模可以扩展到70亿，上下文窗口可以扩展到128K tokens。损失函数通常采用标准的扩散模型损失函数，例如L2损失或Huber损失。

🖼️ 关键图片

📊 实验亮点

Lumina-T2I模型（50亿参数Flag-DiT）仅需6亿参数的朴素DiT 35%的训练计算成本，即可生成高质量图像。实验结果表明，Lumina-T2X在分辨率外推、高分辨率编辑、生成一致的3D视图以及合成具有无缝过渡的视频方面表现出色。这些结果验证了Lumina-T2X的有效性和优越性。

🎯 应用场景

Lumina-T2X具有广泛的应用前景，包括：内容创作（生成图像、视频、音乐等）、虚拟现实/增强现实、游戏开发、教育、医疗诊断等。该研究的实际价值在于降低了多模态内容生成的门槛，提高了生成效率和质量。未来，Lumina-T2X有望成为一个通用的多模态生成平台，赋能各行各业。

📄 摘要（原文）

Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X's preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理