Accelerating Learned Video Compression via Low-Resolution Representation Learning

📄 arXiv: 2407.16418v1 📥 PDF

作者: Zidian Qiu, Zongyao He, Zhi Jin

分类: eess.IV, cs.CV

发布日期: 2024-07-23


💡 一句话要点

提出基于低分辨率表示学习的加速视频压缩框架,显著提升编解码速度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频压缩 低分辨率表示学习 神经网络 帧间预测 在线编码器更新

📋 核心要点

  1. 学习型视频压缩虽然压缩率高,但计算复杂度高,高分辨率操作导致编解码速度慢,限制了实际应用。
  2. 通过低分辨率表示学习,减少帧间传播特征的分辨率,并结合I帧和P帧的联合训练,降低计算负载。
  3. 实验表明,该方法在保持与DCVC-HEM相当的压缩比的同时,编码速度提升3倍,解码速度提升7倍。

📝 摘要(中文)

近年来,学习型视频压缩领域发展迅速,例如最新的神经视频编解码器DCVC-DC在压缩比方面已经超越了下一代编解码器ECM。然而,学习型视频压缩框架通常表现出较低的编码和解码速度,这主要是由于其增加的计算复杂性和不必要的高分辨率空间操作,极大地阻碍了它们在现实中的应用。本文提出了一种效率优化的学习型视频压缩框架,专注于低分辨率表示学习,旨在显著提高编码和解码速度。首先,通过降低从解码帧(包括I帧)的重用特征中获得的帧间传播特征的分辨率来减少计算负载。我们为I帧和P帧模型实施联合训练策略,进一步提高压缩比。其次,我们的方法有效地利用多帧先验进行参数预测,从而最大限度地减少解码端的计算。第三,我们重新审视了在线编码器更新(OEU)策略在高分辨率序列中的应用,在不影响解码效率的情况下,实现了压缩比的显著提高。我们的效率优化框架显著提高了学习型视频压缩的压缩比和速度之间的平衡。与传统编解码器相比,我们的方法实现了与H.266参考软件VTM的低衰减P配置相当的性能水平。此外,与DCVC-HEM相比,我们的方法在提供可比压缩比的同时,将编码和解码速度分别提高了3倍和7倍。在RTX 2080Ti上,我们的方法可以在100ms内解码每个1080p帧。

🔬 方法详解

问题定义:现有学习型视频压缩方法虽然在压缩率上有所突破,但其高计算复杂度和高分辨率空间操作导致编解码速度慢,难以满足实时性要求高的应用场景。因此,如何提升学习型视频压缩的编解码速度,同时保持良好的压缩性能,是一个亟待解决的问题。

核心思路:论文的核心思路是通过降低特征表示的分辨率来减少计算量,从而加速编解码过程。具体来说,降低帧间传播特征的分辨率,并利用多帧先验信息进行参数预测,以减少解码端的计算负担。此外,还采用了在线编码器更新策略,以进一步提高压缩率。

技术框架:该框架主要包含以下几个模块:1) 低分辨率特征提取模块:用于从解码帧中提取低分辨率的特征表示。2) 帧间预测模块:利用提取的特征进行帧间预测,生成残差信息。3) 熵编码模块:对残差信息进行熵编码,生成压缩码流。4) 参数预测模块:利用多帧先验信息预测解码所需的参数。5) 在线编码器更新模块:根据视频内容动态调整编码器参数。

关键创新:该论文的关键创新在于将低分辨率表示学习应用于视频压缩领域,通过降低特征分辨率来显著减少计算量,从而加速编解码过程。此外,该论文还提出了一种基于多帧先验的参数预测方法,进一步减少了解码端的计算负担。

关键设计:1) 采用低分辨率的卷积神经网络提取特征,降低计算复杂度。2) 设计了一种基于多帧先验的参数预测网络,利用相邻帧的信息预测当前帧的参数。3) 采用联合训练策略,同时优化I帧和P帧的编码性能。4) 重新审视并有效利用在线编码器更新(OEU)策略,提升高分辨率视频的压缩率。

📊 实验亮点

实验结果表明,该方法在保持与DCVC-HEM相当的压缩比的情况下,编码速度提升了3倍,解码速度提升了7倍。在RTX 2080Ti GPU上,该方法可以在100ms内解码每个1080p帧,达到了实时解码的要求。此外,该方法在压缩性能上与传统的H.266/VTM编解码器相当。

🎯 应用场景

该研究成果可应用于实时视频通信、视频监控、在线视频点播等领域。通过提高视频压缩的编解码速度,可以降低带宽需求,提升用户体验,并为移动设备上的视频应用提供更好的支持。未来,该技术有望在自动驾驶、远程医疗等新兴领域发挥重要作用。

📄 摘要(原文)

In recent years, the field of learned video compression has witnessed rapid advancement, exemplified by the latest neural video codecs DCVC-DC that has outperformed the upcoming next-generation codec ECM in terms of compression ratio. Despite this, learned video compression frameworks often exhibit low encoding and decoding speeds primarily due to their increased computational complexity and unnecessary high-resolution spatial operations, which hugely hinder their applications in reality. In this work, we introduce an efficiency-optimized framework for learned video compression that focuses on low-resolution representation learning, aiming to significantly enhance the encoding and decoding speeds. Firstly, we diminish the computational load by reducing the resolution of inter-frame propagated features obtained from reused features of decoded frames, including I-frames. We implement a joint training strategy for both the I-frame and P-frame models, further improving the compression ratio. Secondly, our approach efficiently leverages multi-frame priors for parameter prediction, minimizing computation at the decoding end. Thirdly, we revisit the application of the Online Encoder Update (OEU) strategy for high-resolution sequences, achieving notable improvements in compression ratio without compromising decoding efficiency. Our efficiency-optimized framework has significantly improved the balance between compression ratio and speed for learned video compression. In comparison to traditional codecs, our method achieves performance levels on par with the low-decay P configuration of the H.266 reference software VTM. Furthermore, when contrasted with DCVC-HEM, our approach delivers a comparable compression ratio while boosting encoding and decoding speeds by a factor of 3 and 7, respectively. On RTX 2080Ti, our method can decode each 1080p frame under 100ms.