EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation

📄 arXiv: 2503.15831v2 📥 PDF

作者: Zihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu, Hang Xu, Zuxuan Wu

分类: cs.CV

发布日期: 2025-03-20 (更新: 2025-05-10)

备注: CVPR2025


💡 一句话要点

EDEN:增强扩散模型,解决大运动视频插帧中生成质量和时序一致性问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视频帧插值 扩散模型 Transformer 时间注意力 大运动 视频生成 深度学习

📋 核心要点

  1. 视频插帧面临复杂非线性运动的挑战,现有方法难以生成清晰时序一致的帧。
  2. EDEN通过Transformer tokenizer提取精细潜在表示,并增强扩散Transformer的时间注意力。
  3. 实验表明,EDEN在多个数据集上显著超越现有方法,LPIPS指标降低显著。

📝 摘要(中文)

本文提出了一种名为EDEN的增强扩散方法,用于高质量大运动视频帧插值。现有基于扩散模型的方法在处理大运动场景时,难以生成清晰且时序一致的帧。为了解决这一局限性,EDEN首先利用基于Transformer的tokenizer生成中间帧的精细潜在表示,供扩散模型使用。然后,通过在扩散Transformer中引入时间注意力机制,并结合起始帧差异嵌入来引导动态运动的生成。大量实验表明,EDEN在多个流行基准测试中取得了最先进的结果,在DAVIS和SNU-FILM上LPIPS指标降低了近10%,在DAIN-HD上提高了8%。

🔬 方法详解

问题定义:视频帧插值旨在生成两个已知帧之间的中间帧,尤其是在存在大幅运动时,现有方法难以保证生成帧的清晰度和时间一致性。基于光流的方法在大运动场景下容易失效,而现有的扩散模型方法虽然有所改进,但仍然无法很好地处理大运动带来的复杂性和不确定性。

核心思路:EDEN的核心思路是利用Transformer tokenizer提取更精细的中间帧潜在表示,并增强扩散模型的时间感知能力,从而更好地建模大运动场景下的复杂运动模式。通过起始帧差异嵌入,引导模型关注运动的起始和结束状态,从而生成更准确的中间帧。

技术框架:EDEN的整体框架包含以下几个主要模块:1) Transformer-based Tokenizer:用于提取输入帧的精细潜在表示。2) Enhanced Diffusion Transformer:一个改进的扩散Transformer,包含时间注意力机制和起始帧差异嵌入。3) Diffusion Process:标准的扩散过程,用于逐步生成中间帧。整个流程首先使用Tokenizer将输入帧转换为潜在表示,然后通过扩散过程逐步生成中间帧,并在每一步中使用增强的Diffusion Transformer进行去噪和优化。

关键创新:EDEN的关键创新在于以下几点:1) 使用Transformer tokenizer提取精细的潜在表示,为扩散模型提供更丰富的信息。2) 在扩散Transformer中引入时间注意力机制,使模型能够更好地捕捉时间依赖关系。3) 引入起始帧差异嵌入,引导模型关注运动的起始和结束状态。这些创新使得EDEN能够更好地处理大运动场景下的视频插帧问题。

关键设计:在Transformer tokenizer中,使用了多层Transformer编码器来提取输入帧的特征。时间注意力机制通过计算不同时间步之间的注意力权重,来捕捉时间依赖关系。起始帧差异嵌入通过将起始帧和结束帧的差异信息嵌入到扩散过程中,来引导模型关注运动的起始和结束状态。损失函数方面,使用了LPIPS损失和L1损失的组合,以保证生成帧的感知质量和像素级别的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EDEN在DAVIS和SNU-FILM数据集上实现了显著的性能提升,LPIPS指标分别降低了近10%。在更具挑战性的DAIN-HD数据集上,EDEN的性能提升也达到了8%。这些结果表明,EDEN在处理大运动视频插帧方面具有显著的优势,能够生成更高质量、更时序一致的中间帧。

🎯 应用场景

EDEN在视频编辑、慢动作视频生成、体育赛事分析、监控视频增强等领域具有广泛的应用前景。它可以用于提高视频的视觉质量,增强用户体验,并为各种视频分析任务提供更准确的数据。未来,EDEN可以进一步扩展到处理更高分辨率的视频,并与其他视频处理技术相结合,以实现更强大的功能。

📄 摘要(原文)

Handling complex or nonlinear motion patterns has long posed challenges for video frame interpolation. Although recent advances in diffusion-based methods offer improvements over traditional optical flow-based approaches, they still struggle to generate sharp, temporally consistent frames in scenarios with large motion. To address this limitation, we introduce EDEN, an Enhanced Diffusion for high-quality large-motion vidEo frame iNterpolation. Our approach first utilizes a transformer-based tokenizer to produce refined latent representations of the intermediate frames for diffusion models. We then enhance the diffusion transformer with temporal attention across the process and incorporate a start-end frame difference embedding to guide the generation of dynamic motion. Extensive experiments demonstrate that EDEN achieves state-of-the-art results across popular benchmarks, including nearly a 10% LPIPS reduction on DAVIS and SNU-FILM, and an 8% improvement on DAIN-HD.