TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

作者: Zonglin Lyu, Chen Chen

分类: cs.CV

发布日期: 2025-07-07

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出时间感知潜在布朗桥扩散模型TLB-VFI，高效解决视频帧插值问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频帧插值 扩散模型 时间感知 潜在空间 布朗桥 光流引导 3D小波变换

📋 核心要点

现有基于图像的扩散模型在视频帧插值中缺乏时间信息提取能力，效率较低；而基于视频的扩散模型计算成本过高。
TLB-VFI通过3D小波门控和时间感知自编码器提取丰富的时序信息，并利用潜在布朗桥扩散模型进行高效插值。
实验表明，TLB-VFI在FID指标上优于现有基于图像的扩散模型20%，参数量减少3倍，推理速度提升2.3倍。

📝 摘要（中文）

视频帧插值(VFI)旨在基于两个连续的相邻帧$I_0$和$I_1$预测中间帧$I_n$。最近的方法将扩散模型（包括基于图像的和基于视频的）应用于此任务，并取得了强大的性能。然而，基于图像的扩散模型无法提取时间信息，并且与非扩散方法相比效率相对较低。基于视频的扩散模型可以提取时间信息，但它们在训练规模、模型大小和推理时间方面都过于庞大。为了缓解上述问题，我们提出了一种用于视频帧插值的时间感知潜在布朗桥扩散模型(TLB-VFI)，这是一种高效的基于视频的扩散模型。通过我们提出的3D小波门控和时间感知自编码器从视频输入中提取丰富的时序信息，我们的方法在最具挑战性的数据集上比最近基于图像的扩散模型的SOTA在FID上实现了20%的改进。同时，由于丰富的时序信息，我们的方法在参数减少3倍的情况下实现了强大的性能。这种参数减少带来了2.3倍的加速。通过结合光流引导，我们的方法需要减少9000倍的训练数据，并且比基于视频的扩散模型减少超过20倍的参数。

🔬 方法详解

问题定义：视频帧插值旨在根据两个相邻帧预测中间帧。现有基于图像的扩散模型无法有效利用视频中的时间信息，导致性能受限。而基于视频的扩散模型虽然能够提取时间信息，但模型参数量巨大，训练和推理成本高昂，难以实际应用。

核心思路：TLB-VFI的核心思路是在潜在空间中利用布朗桥扩散模型，并结合时间感知模块，从而在保证性能的同时，显著降低模型复杂度和计算成本。通过提取丰富的时序信息，模型能够更准确地预测中间帧，同时减少对大量训练数据的依赖。

技术框架：TLB-VFI主要包含三个模块：时间感知自编码器、3D小波门控和潜在布朗桥扩散模型。首先，时间感知自编码器将输入视频帧编码到潜在空间，并提取时间特征。然后，3D小波门控模块进一步增强时间信息的提取。最后，潜在布朗桥扩散模型在潜在空间中进行扩散和逆扩散过程，生成插值帧。光流引导被用于进一步提升性能并减少训练数据需求。

关键创新：TLB-VFI的关键创新在于结合了时间感知模块和潜在布朗桥扩散模型。时间感知模块能够有效地提取视频中的时间信息，从而提升插值质量。潜在布朗桥扩散模型则能够在保证性能的同时，显著降低模型参数量和计算成本。此外，光流引导的使用进一步提升了模型的效率和鲁棒性。

关键设计：3D小波门控模块利用3D小波变换提取不同尺度的时间信息，并通过门控机制选择性地保留重要特征。时间感知自编码器采用3D卷积神经网络，以捕捉视频中的时空相关性。潜在布朗桥扩散模型使用U-Net结构，并采用时间步嵌入来控制扩散过程。损失函数包括L1损失、感知损失和对抗损失，以保证生成帧的质量和真实感。

🖼️ 关键图片

📊 实验亮点

TLB-VFI在多个视频帧插值数据集上取得了显著的性能提升。在最具挑战性的数据集上，TLB-VFI的FID指标比现有基于图像的扩散模型SOTA提升了20%。同时，TLB-VFI的参数量减少了3倍，推理速度提升了2.3倍。通过结合光流引导，TLB-VFI所需的训练数据减少了9000倍，参数量比基于视频的扩散模型减少了超过20倍。

🎯 应用场景

TLB-VFI在视频编辑、慢动作视频生成、视频修复、虚拟现实等领域具有广泛的应用前景。它可以用于提高视频的帧率，增强观看体验，修复损坏的视频帧，以及生成高质量的虚拟现实内容。该研究的成果有助于推动视频处理技术的发展，并为相关应用提供更高效、更实用的解决方案。

📄 摘要（原文）

Video Frame Interpolation (VFI) aims to predict the intermediate frame $I_n$ (we use n to denote time in videos to avoid notation overload with the timestep $t$ in diffusion models) based on two consecutive neighboring frames $I_0$ and $I_1$. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理