Movie Gen: A Cast of Media Foundation Models

📄 arXiv: 2410.13720v2 📥 PDF

作者: Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

分类: cs.CV, cs.AI, cs.LG, eess.IV

发布日期: 2024-10-17 (更新: 2025-02-26)


💡 一句话要点

Movie Gen:一套高质量媒体基础模型,实现1080p高清视频生成与编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 Transformer模型 文本到视频 视频编辑 个性化视频 大规模预训练 媒体基础模型

📋 核心要点

  1. 现有视频生成模型在生成高质量、长时序视频方面存在挑战,难以实现精确控制和个性化定制。
  2. Movie Gen通过大规模Transformer模型,结合多项技术创新,实现了高质量、长时序视频的生成与编辑。
  3. 实验结果表明,Movie Gen在文本到视频合成、视频个性化、视频编辑等多个任务上均取得了领先水平。

📝 摘要(中文)

本文介绍Movie Gen,一套能够生成高质量1080p高清视频并同步音频的媒体基础模型,支持不同宽高比。该模型还具备基于指令的精确视频编辑以及基于用户图像的个性化视频生成等额外功能。我们的模型在多个任务上达到了新的state-of-the-art水平,包括文本到视频合成、视频个性化、视频编辑、视频到音频生成以及文本到音频生成。我们最大的视频生成模型是一个拥有300亿参数的Transformer,使用最大73K视频tokens的上下文长度进行训练,对应于以16帧/秒生成的16秒视频。我们在架构、潜在空间、训练目标和方案、数据管理、评估协议、并行化技术和推理优化等方面展示了多项技术创新和简化,从而能够充分利用大规模预训练数据、模型大小和训练计算的优势来训练大规模媒体生成模型。我们希望本文能够帮助研究社区加速媒体生成模型的进展和创新。本文中的所有视频都可以在https://go.fb.me/MovieGenResearchVideos上找到。

🔬 方法详解

问题定义:现有视频生成方法难以生成高分辨率、长时序且具有精确控制能力的视频。同时,个性化视频生成和编辑也面临挑战,需要更好地理解用户意图和内容。

核心思路:Movie Gen的核心在于利用大规模Transformer模型学习视频的潜在表示,并通过文本指令或用户图像来控制视频的生成和编辑过程。通过扩大模型规模、增加训练数据和优化训练策略,提升视频生成质量和控制能力。

技术框架:Movie Gen采用Transformer架构,包含视频编码器、文本编码器(或图像编码器)和视频解码器。视频编码器将视频帧序列编码为潜在表示,文本编码器将文本指令编码为语义向量,视频解码器则根据潜在表示和语义向量生成新的视频帧序列。整体流程包括数据预处理、模型训练和视频生成/编辑三个阶段。

关键创新:该论文的关键创新在于:1) 探索了大规模Transformer在视频生成领域的潜力;2) 提出了多种技术优化方法,包括架构简化、潜在空间设计、训练目标改进等,以提升视频生成质量和效率;3) 实现了基于文本指令和用户图像的精确视频编辑和个性化生成。

关键设计:模型采用了30B参数的Transformer,训练时使用了73K的视频tokens上下文长度。关键技术细节包括:1) 使用了高效的并行化技术来加速训练;2) 设计了合适的损失函数,包括对抗损失、重建损失和语义一致性损失,以保证视频质量和语义准确性;3) 采用了多种数据增强技术来提升模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Movie Gen在文本到视频合成、视频个性化、视频编辑、视频到音频生成以及文本到音频生成等多个任务上取得了state-of-the-art的结果。例如,在文本到视频合成任务中,生成的视频质量和流畅度显著优于现有方法。该模型能够生成1080p高清视频,并支持16秒的长时序视频生成。

🎯 应用场景

Movie Gen具有广泛的应用前景,包括电影制作、广告创意、游戏开发、教育娱乐等领域。它可以用于生成高质量的电影片段、广告视频、游戏场景等,也可以用于个性化视频定制和视频编辑,为用户提供更加丰富和便捷的创作工具。未来,该技术有望进一步发展,实现更加智能和自动化的视频生成。

📄 摘要(原文)

We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user's image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.