TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
作者: Zonglin Lyu, Chen Chen
分类: cs.CV
发布日期: 2025-07-07
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出时间感知潜在布朗桥扩散模型TLB-VFI,高效解决视频帧插值问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频帧插值 扩散模型 时间感知 潜在空间 布朗桥 光流引导 3D小波变换
📋 核心要点
- 现有基于图像的扩散模型在视频帧插值中缺乏时间信息提取能力,效率较低;而基于视频的扩散模型计算成本过高。
- TLB-VFI通过3D小波门控和时间感知自编码器提取丰富的时序信息,并利用潜在布朗桥扩散模型进行高效插值。
- 实验表明,TLB-VFI在FID指标上优于现有基于图像的扩散模型20%,参数量减少3倍,推理速度提升2.3倍。
📝 摘要(中文)
视频帧插值(VFI)旨在基于两个连续的相邻帧$I_0$和$I_1$预测中间帧$I_n$。最近的方法将扩散模型(包括基于图像的和基于视频的)应用于此任务,并取得了强大的性能。然而,基于图像的扩散模型无法提取时间信息,并且与非扩散方法相比效率相对较低。基于视频的扩散模型可以提取时间信息,但它们在训练规模、模型大小和推理时间方面都过于庞大。为了缓解上述问题,我们提出了一种用于视频帧插值的时间感知潜在布朗桥扩散模型(TLB-VFI),这是一种高效的基于视频的扩散模型。通过我们提出的3D小波门控和时间感知自编码器从视频输入中提取丰富的时序信息,我们的方法在最具挑战性的数据集上比最近基于图像的扩散模型的SOTA在FID上实现了20%的改进。同时,由于丰富的时序信息,我们的方法在参数减少3倍的情况下实现了强大的性能。这种参数减少带来了2.3倍的加速。通过结合光流引导,我们的方法需要减少9000倍的训练数据,并且比基于视频的扩散模型减少超过20倍的参数。
🔬 方法详解
问题定义:视频帧插值旨在根据两个相邻帧预测中间帧。现有基于图像的扩散模型无法有效利用视频中的时间信息,导致性能受限。而基于视频的扩散模型虽然能够提取时间信息,但模型参数量巨大,训练和推理成本高昂,难以实际应用。
核心思路:TLB-VFI的核心思路是在潜在空间中利用布朗桥扩散模型,并结合时间感知模块,从而在保证性能的同时,显著降低模型复杂度和计算成本。通过提取丰富的时序信息,模型能够更准确地预测中间帧,同时减少对大量训练数据的依赖。
技术框架:TLB-VFI主要包含三个模块:时间感知自编码器、3D小波门控和潜在布朗桥扩散模型。首先,时间感知自编码器将输入视频帧编码到潜在空间,并提取时间特征。然后,3D小波门控模块进一步增强时间信息的提取。最后,潜在布朗桥扩散模型在潜在空间中进行扩散和逆扩散过程,生成插值帧。光流引导被用于进一步提升性能并减少训练数据需求。
关键创新:TLB-VFI的关键创新在于结合了时间感知模块和潜在布朗桥扩散模型。时间感知模块能够有效地提取视频中的时间信息,从而提升插值质量。潜在布朗桥扩散模型则能够在保证性能的同时,显著降低模型参数量和计算成本。此外,光流引导的使用进一步提升了模型的效率和鲁棒性。
关键设计:3D小波门控模块利用3D小波变换提取不同尺度的时间信息,并通过门控机制选择性地保留重要特征。时间感知自编码器采用3D卷积神经网络,以捕捉视频中的时空相关性。潜在布朗桥扩散模型使用U-Net结构,并采用时间步嵌入来控制扩散过程。损失函数包括L1损失、感知损失和对抗损失,以保证生成帧的质量和真实感。
🖼️ 关键图片
📊 实验亮点
TLB-VFI在多个视频帧插值数据集上取得了显著的性能提升。在最具挑战性的数据集上,TLB-VFI的FID指标比现有基于图像的扩散模型SOTA提升了20%。同时,TLB-VFI的参数量减少了3倍,推理速度提升了2.3倍。通过结合光流引导,TLB-VFI所需的训练数据减少了9000倍,参数量比基于视频的扩散模型减少了超过20倍。
🎯 应用场景
TLB-VFI在视频编辑、慢动作视频生成、视频修复、虚拟现实等领域具有广泛的应用前景。它可以用于提高视频的帧率,增强观看体验,修复损坏的视频帧,以及生成高质量的虚拟现实内容。该研究的成果有助于推动视频处理技术的发展,并为相关应用提供更高效、更实用的解决方案。
📄 摘要(原文)
Video Frame Interpolation (VFI) aims to predict the intermediate frame $I_n$ (we use n to denote time in videos to avoid notation overload with the timestep $t$ in diffusion models) based on two consecutive neighboring frames $I_0$ and $I_1$. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.