SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

📄 arXiv: 2602.21818v1 📥 PDF

作者: Guibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Yahui Zhou

分类: cs.CV

发布日期: 2026-02-25


💡 一句话要点

SkyReels-V4:统一多模态视频-音频生成、修复与编辑的基石模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 音频生成 多模态学习 视频修复 视频编辑

📋 核心要点

  1. 现有视频生成模型难以同时处理多模态输入、联合生成音视频,以及统一处理生成、修复和编辑任务。
  2. SkyReels V4 采用双流 MMDiT 架构,结合 MMLM 的指令遵循能力和视频分支的上下文学习,实现细粒度的视觉和听觉指导。
  3. 该模型支持高达 1080p 分辨率、32 FPS 和 15 秒的视频生成,并通过联合生成低分辨率序列和高分辨率关键帧提高效率。

📝 摘要(中文)

SkyReels V4是一个统一的多模态视频基础模型,用于联合视频音频生成、修复和编辑。该模型采用双流多模态扩散Transformer (MMDiT) 架构,其中一个分支合成视频,另一个分支生成时间对齐的音频,同时共享一个基于多模态大型语言模型 (MMLM) 的强大文本编码器。SkyReels V4接受丰富的多模态指令,包括文本、图像、视频片段、掩码和音频参考。通过结合MMLM的多模态指令遵循能力与视频分支MMDiT中的上下文学习,该模型可以在复杂条件下注入细粒度的视觉指导,同时音频分支MMDiT利用音频参考来指导声音生成。在视频方面,我们采用通道连接公式,统一了各种修复风格任务,例如图像到视频、视频扩展和视频编辑,并通过多模态提示自然地扩展到视觉参考修复和编辑。SkyReels V4支持高达1080p分辨率、32 FPS和15秒的持续时间,从而能够生成具有同步音频的高保真、多镜头、电影级视频。为了使如此高分辨率、长时间的生成在计算上可行,我们引入了一种效率策略:联合生成低分辨率完整序列和高分辨率关键帧,然后使用专用超分辨率和帧插值模型。据我们所知,SkyReels V4是第一个同时支持多模态输入、联合视频音频生成以及统一处理生成、修复和编辑的视频基础模型,同时保持了电影分辨率和持续时间下的强大效率和质量。

🔬 方法详解

问题定义:现有视频生成模型通常专注于单一任务(如生成、修复或编辑),缺乏统一性。此外,它们在处理多模态输入(如文本、图像、音频)和生成高质量、长时程的音视频内容方面存在局限性。计算成本也是一个挑战,尤其是在高分辨率下。

核心思路:SkyReels V4 的核心思路是构建一个统一的多模态视频基础模型,能够同时处理视频和音频的生成、修复和编辑任务。通过结合多模态大型语言模型 (MMLM) 和多模态扩散 Transformer (MMDiT),模型可以理解复杂的指令并生成高质量的音视频内容。为了提高效率,采用了联合生成低分辨率序列和高分辨率关键帧的策略。

技术框架:SkyReels V4 采用双流 MMDiT 架构。一个分支负责视频生成,另一个分支负责音频生成。两个分支共享一个基于 MMLM 的文本编码器,用于理解多模态指令。视频分支利用上下文学习注入细粒度的视觉指导,而音频分支则利用音频参考来指导声音生成。模型还采用了通道连接公式,统一了各种修复风格任务。最后,使用超分辨率和帧插值模型来提高视频质量。

关键创新:SkyReels V4 的关键创新在于其统一的多模态处理能力,能够同时处理视频和音频的生成、修复和编辑任务。此外,该模型还采用了高效的生成策略,能够在高分辨率和长时程下生成高质量的音视频内容。多模态指令的灵活运用也是一个亮点。

关键设计:模型采用了双流 MMDiT 架构,其中视频和音频分支分别处理各自的模态信息。MMLM 用于编码多模态输入,并提供指令指导。通道连接公式用于统一各种修复任务。联合生成低分辨率序列和高分辨率关键帧的策略用于提高效率。超分辨率和帧插值模型用于提高视频质量。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkyReels V4 能够生成高达 1080p 分辨率、32 FPS 和 15 秒的视频,并同步生成音频。该模型统一处理了视频生成、修复和编辑任务,并支持多模态输入。通过联合生成低分辨率序列和高分辨率关键帧,提高了生成效率。具体的性能数据和对比基线未在摘要中给出,属于未知信息。

🎯 应用场景

SkyReels V4 可应用于电影制作、游戏开发、广告创意、教育内容生成等领域。它能够根据用户的多模态指令,快速生成高质量的音视频内容,降低创作门槛,提高生产效率。未来,该模型有望成为内容创作的重要工具,并推动相关产业的发展。

📄 摘要(原文)

SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MMLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MMLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.