Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V

📄 arXiv: 2510.27364v1 📥 PDF

作者: Meftun Akarsu, Kerem Catay, Sedat Bin Vedat, Enes Kutay Yarkan, Ilke Senturk, Arda Sar, Dafne Eksioglu

分类: cs.CV, cs.AI

发布日期: 2025-10-31

备注: video generation, image-to-video, dif- fusion transformer, LoRA, fine-tuning, cinematic scene synthesis, multi-GPU inference, fully sharded data parallelism, computational efficiency

DOI: 10.5281/zenodo.17370356


💡 一句话要点

提出LoRA微调的视频生成管线,用于电影场景合成,解决小数据集难题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 电影场景合成 LoRA微调 扩散模型 风格迁移

📋 核心要点

  1. 现有视频生成模型在电影场景合成中,面临数据集稀缺和风格迁移困难的挑战。
  2. 利用LoRA高效微调Wan2.1 I2V模型,解耦视觉风格学习和运动生成,实现快速领域适应。
  3. 实验表明,该方法在电影保真度和时间稳定性上优于基线模型,并开源了完整管线。

📝 摘要(中文)

本文提出了一种实用的管线,用于微调开源视频扩散Transformer,从而利用小数据集合成电影场景,服务于电视和电影制作。该方法分为两个阶段,将视觉风格学习与运动生成解耦。第一阶段,将LoRA模块集成到Wan2.1 I2V-14B模型的交叉注意力层中,使用来自Ay Yapim历史电视剧《El Turco》的短片段数据集来调整其视觉表示。这实现了在单个GPU上数小时内完成高效的领域迁移。第二阶段,微调后的模型生成风格一致的关键帧,保留服装、光照和色彩分级,然后通过模型的视频解码器将这些关键帧在时间上扩展为连贯的720p序列。此外,我们应用轻量级并行化和序列分割策略来加速推理,且不降低质量。使用FVD、CLIP-SIM和LPIPS指标进行的定量和定性评估,以及小型专家用户研究的支持,证明了与基础模型相比,电影保真度和时间稳定性方面有显著提高。完整的训练和推理管线已发布,以支持可重复性以及在电影领域中的改编。

🔬 方法详解

问题定义:论文旨在解决电影和电视制作中,利用小数据集生成高质量电影场景的问题。现有视频生成模型通常需要大量数据进行训练,且难以适应特定电影风格,导致生成效果不佳,风格不一致。

核心思路:论文的核心思路是将视觉风格的学习与运动生成解耦,通过LoRA微调预训练的图像到视频模型,使其能够快速适应目标电影的视觉风格。然后,利用微调后的模型生成关键帧,再通过视频解码器生成完整的视频序列。这种方法降低了对大规模数据集的依赖,并提高了风格迁移的效率。

技术框架:该方法包含两个主要阶段:1) 视觉风格微调阶段:使用LoRA模块微调Wan2.1 I2V-14B模型的交叉注意力层,使其适应目标电影的视觉风格。2) 视频生成阶段:利用微调后的模型生成风格一致的关键帧,然后使用模型的视频解码器将这些关键帧扩展为连贯的视频序列。同时,采用轻量级并行化和序列分割策略来加速推理过程。

关键创新:该方法最重要的创新点在于利用LoRA进行高效的视觉风格迁移,能够在小数据集上快速微调预训练模型,并将其应用于电影场景合成。此外,将视觉风格学习与运动生成解耦,使得模型能够更好地控制生成视频的风格和内容。

关键设计:LoRA模块被集成到Wan2.1 I2V-14B模型的交叉注意力层中,通过学习低秩矩阵来调整模型的权重,从而实现高效的风格迁移。训练过程中,使用来自目标电影的短片段数据集,并采用AdamW优化器进行优化。推理阶段,采用序列分割策略将长视频分割成多个短视频片段,然后并行生成这些片段,最后将它们拼接在一起,从而加速推理过程。

📊 实验亮点

实验结果表明,该方法在电影保真度和时间稳定性方面优于基线模型。具体而言,使用FVD、CLIP-SIM和LPIPS指标进行评估,结果显示该方法生成的视频在视觉质量和时间一致性方面均有显著提升。此外,小型专家用户研究也表明,该方法生成的视频更符合电影制作的要求。

🎯 应用场景

该研究成果可应用于电影和电视制作领域,帮助制作人员快速生成具有特定风格的电影场景,降低制作成本,提高制作效率。此外,该方法还可以应用于虚拟现实、游戏开发等领域,生成高质量的虚拟场景和角色动画,提升用户体验。未来,该技术有望进一步发展,实现更加逼真和个性化的视频生成。

📄 摘要(原文)

We present a practical pipeline for fine-tuning open-source video diffusion transformers to synthesize cinematic scenes for television and film production from small datasets. The proposed two-stage process decouples visual style learning from motion generation. In the first stage, Low-Rank Adaptation (LoRA) modules are integrated into the cross-attention layers of the Wan2.1 I2V-14B model to adapt its visual representations using a compact dataset of short clips from Ay Yapim's historical television film El Turco. This enables efficient domain transfer within hours on a single GPU. In the second stage, the fine-tuned model produces stylistically consistent keyframes that preserve costume, lighting, and color grading, which are then temporally expanded into coherent 720p sequences through the model's video decoder. We further apply lightweight parallelization and sequence partitioning strategies to accelerate inference without quality degradation. Quantitative and qualitative evaluations using FVD, CLIP-SIM, and LPIPS metrics, supported by a small expert user study, demonstrate measurable improvements in cinematic fidelity and temporal stability over the base model. The complete training and inference pipeline is released to support reproducibility and adaptation across cinematic domains.