Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V

📄 arXiv: 2510.27364v1 📥 PDF

作者: Meftun Akarsu, Kerem Catay, Sedat Bin Vedat, Enes Kutay Yarkan, Ilke Senturk, Arda Sar, Dafne Eksioglu

分类: cs.CV, cs.AI

发布日期: 2025-10-31

备注: video generation, image-to-video, dif- fusion transformer, LoRA, fine-tuning, cinematic scene synthesis, multi-GPU inference, fully sharded data parallelism, computational efficiency

DOI: 10.5281/zenodo.17370356


💡 一句话要点

提出LoRA微调的视频生成管线,用于电影场景合成,解决小数据集难题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 电影场景合成 LoRA微调 风格迁移 扩散模型

📋 核心要点

  1. 现有视频生成模型在电影场景合成方面面临数据集稀缺和风格迁移困难的挑战。
  2. 利用LoRA在Wan2.1 I2V模型上进行视觉风格微调,并解耦视觉风格学习与运动生成。
  3. 实验表明,该方法在电影保真度和时间稳定性方面优于基线模型,并开源了完整管线。

📝 摘要(中文)

本文提出了一种实用的管线,用于微调开源视频扩散Transformer,从而利用小数据集合成用于电视和电影制作的电影场景。所提出的两阶段过程将视觉风格学习与运动生成分离。第一阶段,将低秩适应(LoRA)模块集成到Wan2.1 I2V-14B模型的交叉注意力层中,使用来自Ay Yapim的历史电视剧《El Turco》的短片数据集来调整其视觉表示。这使得能够在单个GPU上数小时内高效地进行领域迁移。第二阶段,微调后的模型生成风格一致的关键帧,保留服装、光照和色彩分级,然后通过模型的视频解码器将这些关键帧在时间上扩展为连贯的720p序列。我们进一步应用轻量级并行化和序列分割策略来加速推理,而不会降低质量。使用FVD、CLIP-SIM和LPIPS指标进行的定量和定性评估,以及小型专家用户研究的支持,证明了电影保真度和时间稳定性相对于基础模型的可衡量改进。完整的训练和推理管线已发布,以支持跨电影领域的重现和改编。

🔬 方法详解

问题定义:论文旨在解决利用小数据集微调视频生成模型,从而合成高质量电影场景的问题。现有方法通常需要大量数据进行训练,或者在风格迁移方面表现不佳,难以满足电影制作的需求。

核心思路:论文的核心思路是将视觉风格学习与运动生成解耦。首先,利用LoRA对预训练的图像到视频模型进行视觉风格的微调,使其能够生成具有特定电影风格的关键帧。然后,利用视频解码器将这些关键帧扩展为连贯的视频序列。这种解耦的方式可以有效地利用小数据集,并提高生成视频的风格一致性。

技术框架:该方法包含两个主要阶段:1) 视觉风格微调阶段:使用LoRA模块微调Wan2.1 I2V-14B模型的交叉注意力层,使其适应目标电影的视觉风格。2) 视频生成阶段:利用微调后的模型生成关键帧,然后使用模型的视频解码器将这些关键帧扩展为完整的视频序列。此外,还采用了轻量级并行化和序列分割策略来加速推理。

关键创新:该方法最重要的创新点在于将LoRA应用于视频生成模型的视觉风格微调,并将其与运动生成解耦。LoRA可以有效地减少需要训练的参数量,从而在小数据集上实现快速的风格迁移。同时,解耦的设计使得模型可以更好地控制生成视频的视觉风格和时间一致性。

关键设计:在视觉风格微调阶段,LoRA模块被集成到Wan2.1 I2V-14B模型的交叉注意力层中。使用来自Ay Yapim的历史电视剧《El Turco》的短片数据集进行训练。在视频生成阶段,模型生成720p的视频序列。为了加速推理,采用了轻量级并行化和序列分割策略。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(具体数值未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在电影保真度和时间稳定性方面优于基线模型。通过FVD、CLIP-SIM和LPIPS等指标进行定量评估,并进行了小型专家用户研究。具体提升幅度未知,但结果表明该方法能够有效地生成具有特定电影风格且时间一致的视频序列。开源了完整的训练和推理管线,方便其他研究者进行复现和改进。

🎯 应用场景

该研究成果可广泛应用于电影和电视制作领域,例如快速生成特定风格的电影片段、创建虚拟场景、进行视频风格迁移等。该方法降低了高质量视频生成对大量数据的依赖,使得小型制作团队也能利用AI技术提升制作效率和质量。未来,该技术有望进一步发展,实现更加逼真和可控的电影场景合成。

📄 摘要(原文)

We present a practical pipeline for fine-tuning open-source video diffusion transformers to synthesize cinematic scenes for television and film production from small datasets. The proposed two-stage process decouples visual style learning from motion generation. In the first stage, Low-Rank Adaptation (LoRA) modules are integrated into the cross-attention layers of the Wan2.1 I2V-14B model to adapt its visual representations using a compact dataset of short clips from Ay Yapim's historical television film El Turco. This enables efficient domain transfer within hours on a single GPU. In the second stage, the fine-tuned model produces stylistically consistent keyframes that preserve costume, lighting, and color grading, which are then temporally expanded into coherent 720p sequences through the model's video decoder. We further apply lightweight parallelization and sequence partitioning strategies to accelerate inference without quality degradation. Quantitative and qualitative evaluations using FVD, CLIP-SIM, and LPIPS metrics, supported by a small expert user study, demonstrate measurable improvements in cinematic fidelity and temporal stability over the base model. The complete training and inference pipeline is released to support reproducibility and adaptation across cinematic domains.