L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression

📄 arXiv: 2504.02560v1 📥 PDF

作者: Yongqi Zhai, Luyang Tang, Wei Jiang, Jiayu Yang, Ronggang Wang

分类: cs.CV, cs.MM

发布日期: 2025-04-03

备注: Accepted to 2025 Data Compression Conference (DCC)


💡 一句话要点

L-LBVC:面向长时运动估计与预测的可学习双向视频压缩框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 可学习视频压缩 双向视频编码 长时运动估计 运动预测 自适应算法

📋 核心要点

  1. 可学习双向视频压缩(LBVC)在长时运动估计和预测方面存在精度不足的问题,尤其是在大运动场景下。
  2. L-LBVC通过自适应运动估计模块处理短时和长时运动,并利用自适应运动预测模块降低运动编码的比特成本。
  3. 实验结果表明,L-LBVC在性能上显著优于以往的LVC方法,并在某些数据集上超越了VVC (VTM)。

📝 摘要(中文)

本文提出了一种新的可学习双向视频压缩框架L-LBVC,旨在解决现有方法在长时运动估计和预测方面精度不足的问题,尤其是在大运动场景下。L-LBVC包含一个自适应运动估计模块,能够处理短时和长时运动。对于相邻帧和运动较小的非相邻帧,直接估计光流;对于运动较大的非相邻帧,递归累积相邻帧之间的局部光流来估计长时光流。此外,还提出了一个自适应运动预测模块,显著降低了运动编码的比特成本。该模块在测试阶段自适应地对参考帧进行下采样,以匹配训练期间观察到的运动范围,从而提高长时运动预测的准确性。实验结果表明,L-LBVC显著优于以往的先进LVC方法,甚至在随机访问配置下超越了VVC (VTM) 在某些测试数据集上的表现。

🔬 方法详解

问题定义:现有可学习双向视频压缩(LBVC)方法在处理长时运动估计和预测时,精度较低,尤其是在存在大幅运动的场景中。这导致了LBVC的性能与传统双向编码方法相比存在差距。现有方法难以准确估计远距离帧之间的运动,从而影响了压缩效率。

核心思路:L-LBVC的核心思路是分别设计自适应的运动估计和运动预测模块,以提高长时运动的估计和预测精度。通过区分处理短时和长时运动,并自适应地调整参考帧的分辨率,从而更有效地利用帧间信息,提升压缩性能。

技术框架:L-LBVC框架主要包含以下模块:1) 自适应运动估计模块:用于估计相邻帧和非相邻帧之间的光流。2) 自适应运动预测模块:用于预测帧间的运动信息,并降低运动编码的比特成本。整体流程是,首先利用自适应运动估计模块获取运动信息,然后利用自适应运动预测模块进行运动预测,最后进行编码和解码。

关键创新:L-LBVC的关键创新在于:1) 提出了自适应运动估计模块,能够根据运动幅度选择不同的运动估计策略,从而更准确地估计长时运动。2) 提出了自适应运动预测模块,通过自适应下采样参考帧来匹配训练期间观察到的运动范围,从而提高长时运动预测的准确性。

关键设计:在自适应运动估计模块中,对于相邻帧和运动较小的非相邻帧,直接估计光流;对于运动较大的非相邻帧,递归累积相邻帧之间的局部光流来估计长时光流。在自适应运动预测模块中,测试阶段自适应地对参考帧进行下采样,下采样的比例取决于运动幅度。具体的损失函数和网络结构等细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

L-LBVC在实验中显著优于以往的先进LVC方法,并在某些测试数据集上超越了VVC (VTM) 在随机访问配置下的表现。具体的性能提升数据和对比基线在摘要中有所提及,但未给出具体数值。总体而言,该方法在视频压缩性能方面取得了显著的进步。

🎯 应用场景

L-LBVC具有广泛的应用前景,包括视频会议、在线教育、视频监控、流媒体服务等。通过提高视频压缩效率,可以降低存储成本、减少网络带宽占用,并提升用户体验。该研究对于推动下一代视频编码技术的发展具有重要意义。

📄 摘要(原文)

Recently, learned video compression (LVC) has shown superior performance under low-delay configuration. However, the performance of learned bi-directional video compression (LBVC) still lags behind traditional bi-directional coding. The performance gap mainly arises from inaccurate long-term motion estimation and prediction of distant frames, especially in large motion scenes. To solve these two critical problems, this paper proposes a novel LBVC framework, namely L-LBVC. Firstly, we propose an adaptive motion estimation module that can handle both short-term and long-term motions. Specifically, we directly estimate the optical flows for adjacent frames and non-adjacent frames with small motions. For non-adjacent frames with large motions, we recursively accumulate local flows between adjacent frames to estimate long-term flows. Secondly, we propose an adaptive motion prediction module that can largely reduce the bit cost for motion coding. To improve the accuracy of long-term motion prediction, we adaptively downsample reference frames during testing to match the motion ranges observed during training. Experiments show that our L-LBVC significantly outperforms previous state-of-the-art LVC methods and even surpasses VVC (VTM) on some test datasets under random access configuration.