SkyReels-V2: Infinite-length Film Generative Model
作者: Guibin Chen, Dixuan Lin, Jiangping Yang, Chunze Lin, Junchen Zhu, Mingyuan Fan, Hao Zhang, Sheng Chen, Zheng Chen, Chengcheng Ma, Weiming Xiong, Wei Wang, Nuo Pang, Kang Kang, Zhiheng Xu, Yuzhe Jin, Yupeng Liang, Yubing Song, Peng Zhao, Boyuan Xu, Di Qiu, Debang Li, Zhengcong Fei, Yang Li, Yahui Zhou
分类: cs.CV
发布日期: 2025-04-17 (更新: 2025-04-21)
备注: 31 pages,10 figures
🔗 代码/项目: GITHUB
💡 一句话要点
SkyReels-V2:提出无限长度电影生成模型,解决长视频生成中prompt一致性、视觉质量和运动动态的难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频生成 多模态大语言模型 扩散模型 强化学习 视频字幕 电影风格生成 渐进式训练
📋 核心要点
- 现有视频生成方法在长视频生成中面临prompt一致性、视觉质量、运动动态和视频时长难以兼顾的挑战。
- SkyReels-V2通过结合多模态大语言模型、多阶段预训练、强化学习和扩散强制框架,实现了无限长度电影的生成。
- 该模型通过渐进式分辨率预训练和多阶段后训练增强,显著提升了视频质量和运动效果,并解决了动态伪影问题。
📝 摘要(中文)
视频生成领域的最新进展主要由扩散模型和自回归框架驱动,但仍然存在一些关键挑战:提示一致性、视觉质量、运动动态和视频时长难以兼顾。为了提高时间视觉质量,往往牺牲运动动态;为了优先考虑分辨率,视频时长受到限制(5-10秒);通用多模态大语言模型(MLLM)无法理解电影语法,导致镜头感知生成效果不佳,例如镜头构图、演员表情和相机运动。这些相互关联的限制阻碍了逼真的长视频合成和专业的电影风格生成。为了解决这些限制,我们提出了SkyReels-V2,一个无限长度的电影生成模型,它协同了多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强制框架。首先,我们设计了一个全面的视频结构化表示,结合了多模态LLM的通用描述和子专家模型的详细镜头语言。在人工标注的帮助下,我们训练了一个统一的视频字幕器,名为SkyCaptioner-V1,以有效地标注视频数据。其次,我们为基本的视频生成建立了渐进式分辨率预训练,然后是四个阶段的后训练增强:初始概念平衡的监督微调(SFT)提高了基线质量;使用人工标注和合成失真数据的运动特定强化学习(RL)训练解决了动态伪影;我们的具有非递减噪声计划的扩散强制框架能够在有效的搜索空间中实现长视频合成;最后的优质SFT完善了视觉保真度。所有代码和模型都可以在https://github.com/SkyworkAI/SkyReels-V2上找到。
🔬 方法详解
问题定义:论文旨在解决长视频生成中存在的prompt一致性、视觉质量、运动动态和视频时长难以兼顾的问题。现有方法通常为了提高视觉质量而牺牲运动动态,或者为了保证分辨率而限制视频时长。此外,通用多模态大语言模型(MLLM)在理解电影语法(如镜头构图、演员表情和相机运动)方面存在不足,导致生成的视频缺乏电影感。
核心思路:SkyReels-V2的核心思路是结合多模态大语言模型(MLLM)的通用描述能力和子专家模型的详细镜头语言,构建一个全面的视频结构化表示。通过多阶段的训练策略,逐步提升视频的视觉质量、运动效果和prompt一致性,最终实现无限长度电影的生成。
技术框架:SkyReels-V2的整体框架包括以下几个主要模块/阶段: 1. 视频结构化表示:结合MLLM和子专家模型,对视频进行全面的结构化描述。 2. SkyCaptioner-V1:一个统一的视频字幕器,用于高效标注视频数据。 3. 渐进式分辨率预训练:为基本的视频生成建立基础。 4. 四阶段后训练增强: - 初始概念平衡的监督微调(SFT):提高基线质量。 - 运动特定强化学习(RL)训练:解决动态伪影。 - 扩散强制框架:实现长视频合成。 - 高质量SFT:完善视觉保真度。
关键创新:SkyReels-V2的关键创新在于其综合性的解决方案,它不仅仅依赖于单一的技术突破,而是通过巧妙地结合多种技术,协同解决长视频生成中的多个难题。例如,通过多模态大语言模型和子专家模型的结合,实现了对视频内容更全面、更细致的理解;通过渐进式分辨率预训练和多阶段后训练增强,逐步提升视频的质量和效果;通过扩散强制框架,实现了长视频的稳定生成。
关键设计: - 视频结构化表示:具体如何结合MLLM和子专家模型,以及如何设计视频的结构化表示,是关键的技术细节。 - SkyCaptioner-V1:如何训练SkyCaptioner-V1,使其能够高效准确地标注视频数据,是另一个关键的技术细节。 - 扩散强制框架:非递减噪声计划的具体设计,以及如何将其应用于长视频生成,是实现稳定长视频生成的关键。
🖼️ 关键图片
📊 实验亮点
论文通过多阶段训练策略,显著提升了视频的视觉质量和运动效果。通过运动特定强化学习(RL)训练,有效地解决了动态伪影问题。扩散强制框架的引入,使得模型能够稳定地生成无限长度的视频,这在之前的视频生成模型中是难以实现的。具体的性能数据和对比基线需要在论文中进一步查找。
🎯 应用场景
SkyReels-V2具有广泛的应用前景,包括电影制作、广告创意、游戏开发、教育娱乐等领域。它可以用于快速生成电影片段、制作个性化广告、创建游戏场景、以及提供沉浸式教育体验。该研究的突破将极大地降低视频制作的门槛,并为内容创作者提供更多的创作可能性。
📄 摘要(原文)
Recent advances in video generation have been driven by diffusion models and autoregressive frameworks, yet critical challenges persist in harmonizing prompt adherence, visual quality, motion dynamics, and duration: compromises in motion dynamics to enhance temporal visual quality, constrained video duration (5-10 seconds) to prioritize resolution, and inadequate shot-aware generation stemming from general-purpose MLLMs' inability to interpret cinematic grammar, such as shot composition, actor expressions, and camera motions. These intertwined limitations hinder realistic long-form synthesis and professional film-style generation. To address these limitations, we propose SkyReels-V2, an Infinite-length Film Generative Model, that synergizes Multi-modal Large Language Model (MLLM), Multi-stage Pretraining, Reinforcement Learning, and Diffusion Forcing Framework. Firstly, we design a comprehensive structural representation of video that combines the general descriptions by the Multi-modal LLM and the detailed shot language by sub-expert models. Aided with human annotation, we then train a unified Video Captioner, named SkyCaptioner-V1, to efficiently label the video data. Secondly, we establish progressive-resolution pretraining for the fundamental video generation, followed by a four-stage post-training enhancement: Initial concept-balanced Supervised Fine-Tuning (SFT) improves baseline quality; Motion-specific Reinforcement Learning (RL) training with human-annotated and synthetic distortion data addresses dynamic artifacts; Our diffusion forcing framework with non-decreasing noise schedules enables long-video synthesis in an efficient search space; Final high-quality SFT refines visual fidelity. All the code and models are available at https://github.com/SkyworkAI/SkyReels-V2.