Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

📄 arXiv: 2502.10248v3 📥 PDF

作者: Guoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang

分类: cs.CV, cs.CL

发布日期: 2025-02-14 (更新: 2025-02-24)

备注: 36 pages, 14 figures

🔗 代码/项目: GITHUB


💡 一句话要点

Step-Video-T2V:提出300亿参数的文本到视频预训练模型,生成高质量长视频

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 视频基础模型 扩散模型 变分自编码器 深度学习 视频压缩 长视频生成

📋 核心要点

  1. 现有文本到视频生成模型难以兼顾视频质量和长度,生成视频常存在伪影且帧数有限。
  2. Step-Video-T2V通过深度压缩VAE、双语文本编码器、3D全注意力DiT和Video-DPO等模块,实现了高质量长视频生成。
  3. 在Step-Video-T2V-Eval基准测试中,该模型展现了优于现有开源和商业引擎的文本到视频生成质量。

📝 摘要(中文)

本文介绍了Step-Video-T2V,一个最先进的文本到视频预训练模型,拥有300亿参数,能够生成长达204帧的视频。该模型设计了一个深度压缩变分自编码器Video-VAE,用于视频生成任务,实现了16x16的空间和8x的时间压缩比,同时保持了卓越的视频重建质量。用户提示通过两个双语文本编码器进行编码,以处理英语和中文。采用Flow Matching训练的具有3D全注意力的DiT被用于将输入噪声去噪为潜在帧。基于视频的DPO方法Video-DPO被应用于减少伪影并提高生成视频的视觉质量。文中还详细介绍了训练策略,并分享了关键的观察和见解。Step-Video-T2V的性能在一个新的视频生成基准Step-Video-T2V-Eval上进行了评估,证明了其与开源和商业引擎相比,具有最先进的文本到视频质量。此外,还讨论了当前基于扩散的模型范式的局限性,并概述了视频基础模型的未来方向。Step-Video-T2V和Step-Video-T2V-Eval均已开源。

🔬 方法详解

问题定义:当前文本到视频生成模型面临的挑战在于如何在保证视频质量的同时,生成足够长的视频序列。现有的扩散模型在生成长视频时,计算成本高昂,且容易出现时间上的不一致性,导致视频质量下降。此外,如何有效地利用文本信息指导视频生成,也是一个重要的研究问题。

核心思路:Step-Video-T2V的核心思路是利用深度压缩的变分自编码器(Video-VAE)降低视频数据的维度,从而减少后续扩散模型的计算负担。同时,采用双语文本编码器处理用户输入的文本提示,并利用Flow Matching训练的DiT模型进行视频生成。最后,通过Video-DPO方法优化生成视频的质量,减少伪影。

技术框架:Step-Video-T2V的整体框架包括以下几个主要模块:1) Video-VAE:用于视频数据的压缩和解压缩;2) 双语文本编码器:用于将用户输入的文本提示编码为向量表示;3) DiT模型:基于扩散模型的视频生成器,将噪声转化为视频帧;4) Video-DPO:用于优化生成视频的质量。整个流程是:首先,Video-VAE将视频数据压缩到潜在空间;然后,双语文本编码器将文本提示编码为向量;接着,DiT模型根据文本向量和随机噪声生成潜在空间的视频帧;最后,Video-VAE将潜在空间的视频帧解码为实际的视频。

关键创新:Step-Video-T2V的关键创新点在于以下几个方面:1) 深度压缩的Video-VAE,实现了高压缩比和高质量的视频重建;2) 采用Flow Matching训练DiT模型,提高了视频生成的效率和质量;3) 引入Video-DPO方法,有效地减少了生成视频中的伪影。

关键设计:Video-VAE采用16x16空间和8x时间的压缩比。双语文本编码器使用了两个独立的文本编码器,分别处理英语和中文文本。DiT模型采用了3D全注意力机制,以便更好地捕捉视频中的时空关系。Video-DPO方法使用视频数据进行训练,以优化生成视频的视觉质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Step-Video-T2V在Step-Video-T2V-Eval基准测试中表现出色,显著优于现有的开源和商业文本到视频生成引擎。该模型能够生成长达204帧的高质量视频,并且在视觉质量和文本相关性方面都取得了显著的提升。实验结果表明,Step-Video-T2V是目前最先进的文本到视频生成模型之一。

🎯 应用场景

Step-Video-T2V具有广泛的应用前景,包括:内容创作、广告制作、教育视频生成、游戏开发等。该模型可以帮助用户快速生成高质量的视频内容,降低视频制作的门槛,并为视频内容创作带来更多的可能性。未来,该模型有望应用于虚拟现实、增强现实等领域,为用户提供更加沉浸式的体验。

📄 摘要(原文)

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.