Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
作者: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
分类: cs.CV
发布日期: 2025-02-10 (更新: 2025-02-12)
💡 一句话要点
Lumina-Video:基于多尺度Next-DiT的高效灵活视频生成框架
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 扩散模型 Transformer 多尺度学习 运动控制
📋 核心要点
- 现有方法难以有效建模视频数据复杂的时空关系,限制了视频生成的质量和效率。
- Lumina-Video通过多尺度Next-DiT架构和运动得分显式控制,提升视频生成效率和可控性。
- Lumina-Video通过渐进式和多源训练,在保证效率的同时,显著提升了生成视频的美学质量和运动平滑度。
📝 摘要(中文)
扩散Transformer(DiT)已成为生成建模领域的主流框架。Lumina-Next在逼真图像生成方面表现出色,但其在视频生成方面的潜力尚未充分挖掘,视频数据固有的时空复杂性带来了巨大挑战。为此,我们提出了Lumina-Video,该框架利用Next-DiT的优势,并针对视频合成引入了定制解决方案。Lumina-Video采用多尺度Next-DiT架构,联合学习多个patchification以提高效率和灵活性。通过将运动得分作为显式条件,Lumina-Video还能够直接控制生成视频的动态程度。结合分辨率和FPS逐步提高的渐进式训练方案,以及混合自然数据和合成数据的多源训练方案,Lumina-Video在高训练和推理效率下实现了卓越的美学质量和运动平滑度。此外,我们还提出了基于Next-DiT的视频到音频模型Lumina-V2A,为生成的视频创建同步声音。代码已发布在https://www.github.com/Alpha-VLLM/Lumina-Video。
🔬 方法详解
问题定义:论文旨在解决视频生成领域中,现有方法难以有效建模视频数据复杂的时空关系,导致生成视频质量不高、运动不流畅、效率低下的问题。现有方法通常难以兼顾生成质量、运动平滑度和计算效率,尤其是在高分辨率和高帧率的视频生成任务中表现不佳。
核心思路:论文的核心思路是利用多尺度Next-DiT架构,通过联合学习多个patchification,来更有效地捕捉视频中的时空信息。同时,将运动得分作为显式条件,允许用户直接控制生成视频的动态程度,从而提高生成视频的可控性。此外,采用渐进式训练和多源训练策略,进一步提升生成视频的质量和效率。
技术框架:Lumina-Video的整体框架基于扩散模型,主要包含以下几个模块:1) 多尺度Next-DiT:用于学习视频数据的时空表示;2) 运动得分条件模块:用于控制生成视频的动态程度;3) 渐进式训练模块:逐步提高分辨率和帧率,提升生成质量;4) 多源训练模块:混合自然数据和合成数据,提高模型的泛化能力;5) Lumina-V2A:视频到音频模型,为生成的视频创建同步声音。
关键创新:论文的关键创新在于多尺度Next-DiT架构和运动得分显式控制。多尺度Next-DiT能够更有效地捕捉视频中的多尺度时空信息,提高生成视频的质量和效率。运动得分显式控制允许用户直接控制生成视频的动态程度,提高了生成视频的可控性。与现有方法相比,Lumina-Video在生成质量、运动平滑度和计算效率方面都取得了显著提升。
关键设计:在多尺度Next-DiT中,采用了多个不同尺度的patchification,以便模型能够捕捉不同尺度的时空信息。运动得分被编码成一个条件向量,并输入到扩散模型的去噪过程中,从而控制生成视频的动态程度。渐进式训练策略逐步提高分辨率和帧率,避免了直接训练高分辨率视频带来的困难。多源训练策略混合了自然数据和合成数据,提高了模型的泛化能力和鲁棒性。
🖼️ 关键图片
📊 实验亮点
Lumina-Video在多个视频生成任务上取得了显著的性能提升。通过实验表明,Lumina-Video在生成视频的美学质量和运动平滑度方面优于现有方法。此外,Lumina-Video还具有较高的训练和推理效率,能够在较短的时间内生成高质量的视频。Lumina-V2A模型能够为生成的视频创建同步声音,进一步提升了视频的真实感和沉浸感。
🎯 应用场景
Lumina-Video在视频内容创作、游戏开发、虚拟现实、电影制作等领域具有广泛的应用前景。它可以用于生成各种类型的视频内容,例如动画、特效、广告等。此外,Lumina-Video还可以用于视频编辑和修复,例如去除视频中的噪声和瑕疵,提高视频的清晰度和流畅度。该研究的未来影响在于推动视频生成技术的发展,降低视频创作的门槛,并为用户提供更加丰富和个性化的视频体验。
📄 摘要(原文)
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.