L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression
作者: Yongqi Zhai, Luyang Tang, Wei Jiang, Jiayu Yang, Ronggang Wang
分类: cs.CV, cs.MM
发布日期: 2025-04-03
备注: Accepted to 2025 Data Compression Conference (DCC)
💡 一句话要点
L-LBVC:面向长时运动估计与预测的可学习双向视频压缩框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 可学习视频压缩 双向视频编码 长时运动估计 运动预测 自适应算法
📋 核心要点
- 可学习双向视频压缩(LBVC)在长时运动估计和预测方面存在精度不足的问题,尤其是在大运动场景下。
- L-LBVC通过自适应运动估计模块处理短时和长时运动,并利用自适应运动预测模块降低运动编码的比特成本。
- 实验结果表明,L-LBVC在性能上显著优于以往的LVC方法,并在某些数据集上超越了VVC (VTM)。
📝 摘要(中文)
本文提出了一种新的可学习双向视频压缩框架L-LBVC,旨在解决现有方法在长时运动估计和预测方面精度不足的问题,尤其是在大运动场景下。L-LBVC包含一个自适应运动估计模块,能够处理短时和长时运动。对于相邻帧和运动较小的非相邻帧,直接估计光流;对于运动较大的非相邻帧,递归累积相邻帧之间的局部光流来估计长时光流。此外,还提出了一个自适应运动预测模块,显著降低了运动编码的比特成本。该模块在测试阶段自适应地对参考帧进行下采样,以匹配训练期间观察到的运动范围,从而提高长时运动预测的准确性。实验结果表明,L-LBVC显著优于以往的先进LVC方法,甚至在随机访问配置下超越了VVC (VTM) 在某些测试数据集上的表现。
🔬 方法详解
问题定义:现有可学习双向视频压缩(LBVC)方法在处理长时运动估计和预测时,精度较低,尤其是在存在大幅运动的场景中。这导致了LBVC的性能与传统双向编码方法相比存在差距。现有方法难以准确估计远距离帧之间的运动,从而影响了压缩效率。
核心思路:L-LBVC的核心思路是分别设计自适应的运动估计和运动预测模块,以提高长时运动的估计和预测精度。通过区分处理短时和长时运动,并自适应地调整参考帧的分辨率,从而更有效地利用帧间信息,提升压缩性能。
技术框架:L-LBVC框架主要包含以下模块:1) 自适应运动估计模块:用于估计相邻帧和非相邻帧之间的光流。2) 自适应运动预测模块:用于预测帧间的运动信息,并降低运动编码的比特成本。整体流程是,首先利用自适应运动估计模块获取运动信息,然后利用自适应运动预测模块进行运动预测,最后进行编码和解码。
关键创新:L-LBVC的关键创新在于:1) 提出了自适应运动估计模块,能够根据运动幅度选择不同的运动估计策略,从而更准确地估计长时运动。2) 提出了自适应运动预测模块,通过自适应下采样参考帧来匹配训练期间观察到的运动范围,从而提高长时运动预测的准确性。
关键设计:在自适应运动估计模块中,对于相邻帧和运动较小的非相邻帧,直接估计光流;对于运动较大的非相邻帧,递归累积相邻帧之间的局部光流来估计长时光流。在自适应运动预测模块中,测试阶段自适应地对参考帧进行下采样,下采样的比例取决于运动幅度。具体的损失函数和网络结构等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
L-LBVC在实验中显著优于以往的先进LVC方法,并在某些测试数据集上超越了VVC (VTM) 在随机访问配置下的表现。具体的性能提升数据和对比基线在摘要中有所提及,但未给出具体数值。总体而言,该方法在视频压缩性能方面取得了显著的进步。
🎯 应用场景
L-LBVC具有广泛的应用前景,包括视频会议、在线教育、视频监控、流媒体服务等。通过提高视频压缩效率,可以降低存储成本、减少网络带宽占用,并提升用户体验。该研究对于推动下一代视频编码技术的发展具有重要意义。
📄 摘要(原文)
Recently, learned video compression (LVC) has shown superior performance under low-delay configuration. However, the performance of learned bi-directional video compression (LBVC) still lags behind traditional bi-directional coding. The performance gap mainly arises from inaccurate long-term motion estimation and prediction of distant frames, especially in large motion scenes. To solve these two critical problems, this paper proposes a novel LBVC framework, namely L-LBVC. Firstly, we propose an adaptive motion estimation module that can handle both short-term and long-term motions. Specifically, we directly estimate the optical flows for adjacent frames and non-adjacent frames with small motions. For non-adjacent frames with large motions, we recursively accumulate local flows between adjacent frames to estimate long-term flows. Secondly, we propose an adaptive motion prediction module that can largely reduce the bit cost for motion coding. To improve the accuracy of long-term motion prediction, we adaptively downsample reference frames during testing to match the motion ranges observed during training. Experiments show that our L-LBVC significantly outperforms previous state-of-the-art LVC methods and even surpasses VVC (VTM) on some test datasets under random access configuration.