Neural B-frame Video Compression with Bi-directional Reference Harmonization

作者: Yuxi Liu, Dengchao Jin, Shuai Huo, Jiawen Gu, Chao Zhou, Huihui Bai, Ming Lu, Zhan Ma

分类: cs.CV

发布日期: 2025-11-12

🔗 代码/项目: GITHUB

💡 一句话要点

提出BRHVC，通过双向参考帧协调优化神经B帧视频压缩性能

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 神经视频压缩 B帧压缩 双向参考帧 运动补偿 上下文融合

📋 核心要点

神经B帧视频压缩面临挑战，尤其是在分层编码中，双向参考帧的贡献可能不平衡，影响压缩效率。
BRHVC通过双向运动收敛（BMC）和双向上下文融合（BCF）来协调双向参考，优化参考信息的利用。
实验结果表明，BRHVC超越了现有NVC方法，甚至在HEVC数据集上超过了传统编码VTM-RA。

📝 摘要（中文）

神经视频压缩（NVC）近年来取得了显著进展，但与P帧压缩相比，神经B帧视频压缩（NBVC）的研究仍不充分。NBVC可以采用双向参考帧以获得更好的压缩性能。然而，NBVC的分层编码可能会使连续时间预测复杂化，特别是在一些具有较大帧跨度的层级上，这可能导致两个参考帧的贡献不平衡。为了优化参考信息的利用，我们提出了一种新的NBVC方法，称为双向参考协调视频压缩（BRHVC），它具有提出的双向运动收敛（BMC）和双向上下文融合（BCF）。BMC在运动压缩中融合多个光流，从而实现更大规模上更精确的运动补偿。然后，BCF在运动补偿精度的指导下，显式地建模参考上下文的权重。凭借更有效的运动和上下文，BRHVC可以有效地协调双向参考。实验结果表明，我们的BRHVC优于以前最先进的NVC方法，甚至在HEVC数据集上超过了传统的编码VTM-RA（在随机访问配置下）。源代码已在https://github.com/kwai/NVC上发布。

🔬 方法详解

问题定义：神经B帧视频压缩(NBVC)旨在利用双向参考帧提高视频压缩效率。然而，NBVC的分层编码结构导致时间预测复杂化，尤其是在帧跨度较大的层级，两个参考帧的贡献可能不平衡，影响压缩性能。现有方法难以有效协调双向参考信息，导致压缩效率受限。

核心思路：BRHVC的核心思路是通过双向运动收敛(BMC)和双向上下文融合(BCF)来显式地建模和协调双向参考帧的信息。BMC旨在更精确地估计运动信息，而BCF则根据运动补偿的精度自适应地融合参考上下文，从而优化参考信息的利用。

技术框架：BRHVC的整体框架包括以下几个主要模块：1) 运动估计模块：用于估计双向光流；2) 双向运动收敛(BMC)模块：融合多个光流，提高运动补偿的准确性；3) 运动补偿模块：利用收敛后的运动信息进行运动补偿；4) 双向上下文融合(BCF)模块：根据运动补偿的精度，自适应地融合参考上下文；5) 残差编码模块：对运动补偿后的残差进行编码。

关键创新：BRHVC的关键创新在于提出了BMC和BCF两个模块。BMC通过融合多个光流来提高运动补偿的准确性，这与传统方法中仅使用单个光流不同。BCF则根据运动补偿的精度自适应地融合参考上下文，这使得模型能够更好地利用参考信息，从而提高压缩效率。

关键设计：BMC模块采用了一种加权平均的方法来融合多个光流，权重由光流的置信度决定。BCF模块使用了一个注意力机制来建模参考上下文的权重，注意力权重由运动补偿的精度决定。损失函数包括重建损失、率失真损失等，用于优化模型的性能。具体的网络结构细节和参数设置在论文中有详细描述。

📊 实验亮点

BRHVC在HEVC数据集上进行了实验，结果表明，BRHVC优于现有的神经视频压缩方法，甚至超过了传统的视频编码标准VTM-RA（在随机访问配置下）。这表明BRHVC在视频压缩性能方面具有显著的优势，能够有效地提高视频压缩效率。

🎯 应用场景

该研究成果可应用于各种视频压缩场景，例如视频会议、在线视频流媒体、视频监控等。通过提高视频压缩效率，可以降低带宽需求，提升用户体验，并降低存储成本。未来，该技术有望应用于更高分辨率、更高帧率的视频压缩，以及移动设备的实时视频压缩。

📄 摘要（原文）

Neural video compression (NVC) has made significant progress in recent years, while neural B-frame video compression (NBVC) remains underexplored compared to P-frame compression. NBVC can adopt bi-directional reference frames for better compression performance. However, NBVC's hierarchical coding may complicate continuous temporal prediction, especially at some hierarchical levels with a large frame span, which could cause the contribution of the two reference frames to be unbalanced. To optimize reference information utilization, we propose a novel NBVC method, termed Bi-directional Reference Harmonization Video Compression (BRHVC), with the proposed Bi-directional Motion Converge (BMC) and Bi-directional Contextual Fusion (BCF). BMC converges multiple optical flows in motion compression, leading to more accurate motion compensation on a larger scale. Then BCF explicitly models the weights of reference contexts under the guidance of motion compensation accuracy. With more efficient motions and contexts, BRHVC can effectively harmonize bi-directional references. Experimental results indicate that our BRHVC outperforms previous state-of-the-art NVC methods, even surpassing the traditional coding, VTM-RA (under random access configuration), on the HEVC datasets. The source code is released at https://github.com/kwai/NVC.

Neural B-frame Video Compression with Bi-directional Reference Harmonization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册