SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

作者: Guibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Max W. Y. Lam, Chien-Hung Liu, Yahui Zhou

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

SkyReels-V4：统一多模态视频-音频生成、修复和编辑的基模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 多模态学习 音频生成 视频编辑 视频修复 扩散模型 Transformer 多模态指令跟随

📋 核心要点

现有视频生成模型难以同时处理多模态输入、联合生成音视频，且在统一生成、修复和编辑任务方面存在挑战。
SkyReels V4采用双流MMDiT架构，结合MMLM和上下文学习，实现多模态指令跟随和细粒度视觉/音频指导的生成。
该模型支持高达1080p分辨率、32 FPS和15秒的视频生成，并通过联合生成低分辨率序列和高分辨率关键帧提高效率。

📝 摘要（中文）

SkyReels V4是一个统一的多模态视频基础模型，用于联合视频音频生成、修复和编辑。该模型采用双流多模态扩散Transformer (MMDiT) 架构，其中一个分支合成视频，另一个分支生成时间对齐的音频，同时共享一个基于多模态大型语言模型 (MMLM) 的强大文本编码器。SkyReels V4接受丰富的多模态指令，包括文本、图像、视频片段、掩码和音频参考。通过结合MMLM的多模态指令跟随能力与视频分支MMDiT中的上下文学习，该模型可以在复杂条件下注入细粒度的视觉指导，同时音频分支MMDiT利用音频参考来指导声音生成。在视频方面，我们采用通道连接公式，统一了各种修复风格任务，例如图像到视频、视频扩展和视频编辑，并通过多模态提示自然地扩展到视觉参考修复和编辑。SkyReels V4支持高达1080p分辨率、32 FPS和15秒的持续时间，能够生成具有同步音频的高保真、多镜头、电影级视频。为了使这种高分辨率、长时程生成在计算上可行，我们引入了一种效率策略：联合生成低分辨率完整序列和高分辨率关键帧，然后使用专用超分辨率和帧插值模型。据我们所知，SkyReels V4是第一个同时支持多模态输入、联合视频音频生成以及统一处理生成、修复和编辑的视频基础模型，同时保持了电影分辨率和持续时间下的强大效率和质量。

🔬 方法详解

问题定义：现有视频生成模型通常专注于单一模态输入（如文本到视频），难以有效整合多模态信息（如图像、音频），并且在视频编辑和修复等任务中缺乏统一的处理框架。此外，生成高分辨率、长时程的视频在计算上仍然是一个挑战。

核心思路：SkyReels V4的核心思路是构建一个统一的多模态视频基础模型，通过双流MMDiT架构同时处理视频和音频生成，并利用MMLM实现多模态指令跟随。通过通道连接的方式统一视频生成、修复和编辑任务，并采用联合生成低分辨率序列和高分辨率关键帧的策略来提高效率。

技术框架：SkyReels V4采用双流MMDiT架构，包含视频分支和音频分支。视频分支负责视频生成、修复和编辑，音频分支负责生成时间对齐的音频。两个分支共享一个基于MMLM的文本编码器，用于处理文本指令。模型还包括超分辨率和帧插值模块，用于提高视频分辨率和帧率。

关键创新：SkyReels V4的关键创新在于：1) 统一的多模态输入处理能力，能够同时接受文本、图像、视频片段、掩码和音频参考；2) 联合视频音频生成，保证音视频内容的时间同步性；3) 统一的生成、修复和编辑框架，通过通道连接的方式实现多种任务的统一处理；4) 高效的高分辨率、长时程视频生成策略，通过联合生成低分辨率序列和高分辨率关键帧来降低计算成本。

关键设计：在视频分支中，采用通道连接的方式将不同类型的输入（如图像、掩码）进行融合，实现统一的修复和编辑。在训练过程中，采用多任务学习的方式，同时优化视频和音频生成质量。为了提高生成效率，模型首先生成低分辨率的完整视频序列，然后生成高分辨率的关键帧，最后使用超分辨率和帧插值模型提高整体分辨率和帧率。

🖼️ 关键图片

📊 实验亮点

SkyReels V4能够生成高达1080p分辨率、32 FPS和15秒的视频，并具有同步音频。该模型在多模态输入处理、联合音视频生成和统一任务处理方面表现出色，为电影级视频生成提供了新的可能性。通过联合生成低分辨率序列和高分辨率关键帧，显著提高了生成效率。

🎯 应用场景

SkyReels V4具有广泛的应用前景，包括电影制作、游戏开发、广告创意、教育内容生成等。它可以用于快速生成高质量的视频内容，进行视频编辑和修复，以及根据用户需求定制个性化的视频体验。该模型有望降低视频制作的门槛，促进创意内容的生产和传播。

📄 摘要（原文）

SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MMLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MMLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理