Wan: Open and Advanced Large-Scale Video Generative Models

作者: Team Wan, Ang Wang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu, Haiming Zhao, Jianxiao Yang, Jianyuan Zeng, Jiayu Wang, Jingfeng Zhang, Jingren Zhou, Jinkai Wang, Jixuan Chen, Kai Zhu, Kang Zhao, Keyu Yan, Lianghua Huang, Mengyang Feng, Ningyi Zhang, Pandeng Li, Pingyu Wu, Ruihang Chu, Ruili Feng, Shiwei Zhang, Siyang Sun, Tao Fang, Tianxing Wang, Tianyi Gui, Tingyu Weng, Tong Shen, Wei Lin, Wei Wang, Wei Wang, Wenmeng Zhou, Wente Wang, Wenting Shen, Wenyuan Yu, Xianzhong Shi, Xiaoming Huang, Xin Xu, Yan Kou, Yangyu Lv, Yifei Li, Yijing Liu, Yiming Wang, Yingya Zhang, Yitong Huang, Yong Li, You Wu, Yu Liu, Yulin Pan, Yun Zheng, Yuntao Hong, Yupeng Shi, Yutong Feng, Zeyinzi Jiang, Zhen Han, Zhi-Fan Wu, Ziyu Liu

分类: cs.CV

发布日期: 2025-03-26 (更新: 2025-04-19)

备注: 60 pages, 33 figures

🔗 代码/项目: GITHUB

💡 一句话要点

Wan：开放先进的大规模视频生成模型，显著提升生成能力和效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 扩散模型 Transformer 大规模预训练 VAE 开源模型 视频编辑

📋 核心要点

现有视频生成模型在性能、效率和可扩展性方面存在挑战，难以满足多样化的应用需求。
Wan通过创新的VAE、可扩展预训练策略和大规模数据整理，显著提升视频生成模型的性能和效率。
Wan的14B模型在多个基准测试中超越现有开源和商业模型，1.3B模型在消费级GPU上高效运行。

📝 摘要（中文）

本报告介绍了Wan，一套旨在突破视频生成边界的全面且开放的视频基础模型。Wan构建于主流的扩散Transformer范式之上，通过一系列创新实现了生成能力的显著提升，包括新型VAE、可扩展的预训练策略、大规模数据整理和自动化评估指标。这些贡献共同增强了模型的性能和通用性。具体来说，Wan具有四个关键特征：领先的性能：Wan的14B模型在包含数十亿图像和视频的庞大数据集上进行训练，展示了视频生成相对于数据和模型大小的缩放规律。它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决方案，表现出明显且显著的性能优势。全面性：Wan提供了两个强大的模型，即1.3B和14B参数，分别用于效率和有效性。它还涵盖了多个下游应用，包括图像到视频、指令引导的视频编辑和个人视频生成，涵盖多达八个任务。消费级效率：1.3B模型表现出卓越的资源效率，仅需8.19 GB VRAM，使其与各种消费级GPU兼容。开放性：我们开源了整个Wan系列，包括源代码和所有模型，旨在促进视频生成社区的发展。这种开放性旨在显著扩展行业中视频制作的创造可能性，并为学术界提供高质量的视频基础模型。

🔬 方法详解

问题定义：当前视频生成模型面临着生成质量不高、计算资源需求大、以及缺乏灵活性的问题。现有方法难以在保证生成质量的同时，降低计算成本，并且难以适应各种下游任务，例如指令引导的视频编辑等。

核心思路：Wan的核心思路是利用大规模数据和模型，结合创新的VAE和可扩展的预训练策略，来提升视频生成的质量和效率。通过开放模型和代码，促进社区发展，加速视频生成技术的发展。

技术框架：Wan基于扩散Transformer范式，包含以下主要模块：1) 新型VAE：用于高效的视频编码和解码。2) 可扩展的预训练策略：用于在大规模数据集上训练模型。3) 大规模数据整理：用于构建高质量的训练数据集。4) 自动化评估指标：用于评估生成视频的质量。整体流程包括数据预处理、模型训练、评估和部署。

关键创新：Wan的关键创新在于其VAE设计、可扩展的预训练策略以及大规模数据整理方法。与现有方法相比，Wan能够更有效地利用大规模数据，生成更高质量的视频，并且具有更好的可扩展性。

关键设计：Wan使用了Transformer架构作为其核心生成模型。在VAE设计上，可能采用了更高效的编码器和解码器结构，以减少计算量并提升生成质量。预训练策略可能包括多阶段训练、自监督学习等技术，以提升模型的泛化能力。损失函数可能包括重建损失、对抗损失等，以优化生成视频的质量。

📊 实验亮点

Wan的14B模型在多个内部和外部基准测试中，性能超越了现有的开源模型和商业解决方案，展示了显著的性能优势。1.3B模型仅需8.19 GB VRAM，可以在消费级GPU上运行，实现了高效的视频生成。这些结果表明Wan在性能和效率方面都取得了显著的进展。

🎯 应用场景

Wan具有广泛的应用前景，包括视频内容创作、广告制作、教育娱乐等领域。它可以用于生成高质量的视频内容，例如电影片段、广告宣传片、教学视频等。此外，Wan还可以应用于视频编辑、视频修复等任务，提升视频制作的效率和质量。开放的Wan模型将促进视频生成技术的发展，并为各行各业带来创新。

📄 摘要（原文）

This report presents Wan, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Built upon the mainstream diffusion transformer paradigm, Wan achieves significant advancements in generative capabilities through a series of innovations, including our novel VAE, scalable pre-training strategies, large-scale data curation, and automated evaluation metrics. These contributions collectively enhance the model's performance and versatility. Specifically, Wan is characterized by four key features: Leading Performance: The 14B model of Wan, trained on a vast dataset comprising billions of images and videos, demonstrates the scaling laws of video generation with respect to both data and model size. It consistently outperforms the existing open-source models as well as state-of-the-art commercial solutions across multiple internal and external benchmarks, demonstrating a clear and significant performance superiority. Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B parameters, for efficiency and effectiveness respectively. It also covers multiple downstream applications, including image-to-video, instruction-guided video editing, and personal video generation, encompassing up to eight tasks. Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range of consumer-grade GPUs. Openness: We open-source the entire series of Wan, including source code and all models, with the goal of fostering the growth of the video generation community. This openness seeks to significantly expand the creative possibilities of video production in the industry and provide academia with high-quality video foundation models. All the code and models are available at https://github.com/Wan-Video/Wan2.1.

Wan: Open and Advanced Large-Scale Video Generative Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理