Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning
作者: Nasrin Rahimi, Mısra Yavuz, Burak Can Biner, Yunus Bilge Kurt, Ahmet Rasim Emirdağı, Süleyman Aslan, Görkay Aydemir, M. Akın Yılmaz, A. Murat Tekalp
分类: cs.CV
发布日期: 2026-03-16
💡 一句话要点
Edit2Interp:利用少量样本将图像编辑基础模型适配到视频帧插值任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频帧插值 图像编辑模型 低秩适配 少量样本学习 时间推理
📋 核心要点
- 现有视频帧插值方法通常需要大量数据从头训练,计算成本高昂,且难以利用图像编辑模型强大的空间推理能力。
- 该论文提出利用少量样本,通过LoRA微调图像编辑基础模型,使其具备视频帧插值能力,无需引入额外的视频特定模块。
- 实验表明,仅使用少量样本微调后的图像编辑模型,即可有效进行视频帧插值,展现了基础模型在时间任务上的潜力。
📝 摘要(中文)
本文展示了预训练图像编辑模型强大的空间推理和物体感知变换能力,可以通过最小的适配来解锁时间合成能力,而无需引入任何视频特定的架构或运动估计模块。我们证明了一个大型图像编辑模型(Qwen-Image-Edit),最初仅为静态指令编辑而设计,可以通过低秩适配(LoRA)仅使用64-256个训练样本即可适应视频帧插值(VFI)。我们的核心贡献在于揭示了模型对静态场景中“物体如何变换”的内在理解包含潜在的时间推理,可以通过少量样本微调来激活。虽然基线模型完全无法生成连贯的中间帧,但我们的参数高效适配成功地解锁了其插值能力。我们的工作表明,基础图像编辑模型在时间任务方面具有未开发的潜力,为资源受限场景中的视频合成提供了一种数据高效的途径,而不是与从头开始在海量数据集上训练的特定于任务的VFI方法竞争。这弥合了图像操作和视频理解之间的差距,表明空间和时间推理在基础模型中可能比以前认为的更加紧密地交织在一起。
🔬 方法详解
问题定义:视频帧插值(VFI)旨在生成两帧图像之间的中间帧,是视频处理中的一个重要任务。现有VFI方法通常需要从头开始训练,依赖于大量的视频数据和复杂的网络结构,计算成本高昂。此外,这些方法难以有效利用预训练图像编辑模型所具备的强大的空间推理和物体感知变换能力。
核心思路:该论文的核心思路是利用预训练图像编辑模型中蕴含的潜在时间推理能力。作者认为,图像编辑模型在学习如何根据指令改变图像内容时,已经隐式地学习了物体变换的规律。通过少量样本的微调,可以激活这些模型的时间推理能力,使其能够进行视频帧插值。
技术框架:该论文的技术框架主要包括以下几个步骤:1) 选择一个预训练的图像编辑基础模型,例如Qwen-Image-Edit。2) 使用少量视频帧插值数据(64-256个样本)进行微调。3) 使用低秩适配(LoRA)方法进行参数高效的微调,避免修改整个模型的参数。4) 将微调后的模型应用于视频帧插值任务,生成中间帧。
关键创新:该论文最重要的技术创新点在于发现并利用了图像编辑模型中蕴含的潜在时间推理能力。与现有VFI方法不同,该方法不需要从头开始训练,而是通过少量样本的微调,即可将图像编辑模型适配到视频帧插值任务。这种方法极大地降低了训练成本,并充分利用了预训练模型的知识。
关键设计:该论文的关键设计包括:1) 使用低秩适配(LoRA)进行参数高效的微调,避免修改整个模型的参数,降低计算成本和过拟合风险。2) 选择合适的图像编辑基础模型,例如Qwen-Image-Edit,该模型具有强大的空间推理和物体感知变换能力。3) 使用少量高质量的视频帧插值数据进行微调,以激活模型的时间推理能力。
🖼️ 关键图片
📊 实验亮点
该论文使用Qwen-Image-Edit模型,仅用64-256个训练样本,通过LoRA微调,即可实现有效的视频帧插值。实验表明,微调后的模型能够生成连贯的中间帧,显著优于未微调的基线模型,证明了图像编辑模型在时间任务上的潜力。
🎯 应用场景
该研究成果可应用于视频编辑、慢动作视频生成、视频修复等领域。通过利用预训练图像编辑模型的知识,可以降低视频处理任务的计算成本和数据需求,尤其适用于资源受限的场景。未来,该方法有望扩展到其他视频生成任务,例如视频预测和视频风格迁移。
📄 摘要(原文)
Pre-trained image editing models exhibit strong spatial reasoning and object-aware transformation capabilities acquired from billions of image-text pairs, yet they possess no explicit temporal modeling. This paper demonstrates that these spatial priors can be repurposed to unlock temporal synthesis capabilities through minimal adaptation - without introducing any video-specific architecture or motion estimation modules. We show that a large image editing model (Qwen-Image-Edit), originally designed solely for static instruction-based edits, can be adapted for Video Frame Interpolation (VFI) using only 64-256 training samples via Low-Rank Adaptation (LoRA). Our core contribution is revealing that the model's inherent understanding of "how objects transform" in static scenes contains latent temporal reasoning that can be activated through few-shot fine-tuning. While the baseline model completely fails at producing coherent intermediate frames, our parameter-efficient adaptation successfully unlocks its interpolation capability. Rather than competing with task-specific VFI methods trained from scratch on massive datasets, our work establishes that foundation image editing models possess untapped potential for temporal tasks, offering a data-efficient pathway for video synthesis in resource-constrained scenarios. This bridges the gap between image manipulation and video understanding, suggesting that spatial and temporal reasoning may be more intertwined in foundation models than previously recognized