Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment

📄 arXiv: 2512.10450v1 📥 PDF

作者: Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Xinlong Pan, Haipeng Wang, Junni Zou, Hongkai Xiong

分类: cs.CV

发布日期: 2025-12-11


💡 一句话要点

提出双域渐进式时序对齐的无误差传播学习视频压缩框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频压缩 学习视频压缩 时序对齐 运动估计 误差传播 可变形Transformer 比特率控制

📋 核心要点

  1. 现有学习视频压缩方法在时序对齐精度和误差传播之间存在矛盾,影响压缩性能。
  2. 提出双域渐进式时序对齐和质量条件混合专家模块,实现高质量且无误差传播的视频压缩。
  3. 实验表明,该方法在率失真性能上具有竞争力,并成功消除了误差传播问题。

📝 摘要(中文)

现有的学习视频压缩框架在运动估计和补偿(ME/MC)方面面临着不准确的时序对齐和误差传播之间的两难选择。分离变换框架对帧内和帧间压缩采用不同的变换,从而产生令人印象深刻的率失真(R-D)性能,但会导致明显的误差传播;而统一变换框架通过共享变换消除误差传播,但在共享潜在域中的ME/MC方面表现较差。为了解决这个限制,本文提出了一种新的统一变换框架,该框架具有双域渐进式时序对齐和质量条件混合专家(QCMoE),以实现学习视频压缩的质量一致且无误差传播的流式传输。具体来说,我们提出了用于ME/MC的双域渐进式时序对齐,该对齐利用粗略的像素域对齐和精细的潜在域对齐,以粗到精的方式显著增强时序上下文建模。粗略的像素域对齐有效地处理了来自单个参考帧的光流估计的简单运动模式,而精细的潜在域对齐开发了一个基于多个参考帧的潜在变量的流引导可变形Transformer (FGDT),以实现复杂运动模式的长期运动细化(LTMR)。此外,我们设计了一个QCMoE模块,用于连续比特率自适应,该模块动态地分配不同的专家,以根据目标质量和内容调整每个像素的量化步长,而不是依赖于单个量化步长。QCMoE允许连续且一致的速率控制,并具有吸引人的R-D性能。实验结果表明,该方法与最先进的方法相比,实现了具有竞争力的R-D性能,同时成功地消除了误差传播。

🔬 方法详解

问题定义:现有学习视频压缩框架在运动估计和补偿(ME/MC)中,分离变换框架虽然R-D性能好,但存在误差传播问题;统一变换框架虽然消除了误差传播,但在ME/MC方面表现较差。因此,需要一种既能保证R-D性能,又能避免误差传播的学习视频压缩方法。

核心思路:论文的核心思路是提出一种基于统一变换框架的双域渐进式时序对齐方法,结合像素域和潜在域的对齐优势,实现更精确的运动估计和补偿。同时,引入质量条件混合专家模块(QCMoE)进行连续比特率自适应,从而在保证质量的同时,实现高效的视频压缩。

技术框架:整体框架包括:1) 双域渐进式时序对齐模块,包含粗略的像素域对齐和精细的潜在域对齐;2) 运动估计和补偿模块,利用时序对齐的结果进行帧间预测;3) 质量条件混合专家模块(QCMoE),用于根据目标质量和内容动态调整量化步长;4) 熵编码模块,对量化后的特征进行编码。

关键创新:主要创新点在于:1) 提出双域渐进式时序对齐方法,结合像素域和潜在域的优势,实现更精确的运动估计和补偿;2) 设计了流引导可变形Transformer (FGDT),用于在潜在域中进行长期运动细化(LTMR);3) 引入质量条件混合专家模块(QCMoE),实现连续比特率自适应,从而在保证质量的同时,实现高效的视频压缩。与现有方法的本质区别在于,该方法在统一变换框架下,通过双域时序对齐和QCMoE模块,实现了无误差传播且高质量的视频压缩。

关键设计:1) 像素域对齐采用光流估计方法,从单个参考帧估计光流;2) 潜在域对齐采用流引导可变形Transformer (FGDT),利用多个参考帧的潜在变量进行运动细化;3) QCMoE模块根据目标质量和内容,动态分配不同的专家来调整量化步长,实现连续比特率自适应;4) 损失函数包括率失真损失和辅助损失,用于优化网络参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在率失真性能上与最先进的方法相比具有竞争力,同时成功地消除了误差传播。具体性能数据未知,但摘要强调了其在消除误差传播方面的优势,这对于实际应用至关重要。

🎯 应用场景

该研究成果可应用于各种视频流媒体服务、视频会议、视频监控等领域。通过消除误差传播,可以提高视频传输的稳定性和可靠性。同时,通过质量条件混合专家模块,可以实现灵活的比特率控制,从而适应不同的网络带宽和用户需求。该研究对于提升视频压缩效率和用户体验具有重要意义。

📄 摘要(原文)

Existing frameworks for learned video compression suffer from a dilemma between inaccurate temporal alignment and error propagation for motion estimation and compensation (ME/MC). The separate-transform framework employs distinct transforms for intra-frame and inter-frame compression to yield impressive rate-distortion (R-D) performance but causes evident error propagation, while the unified-transform framework eliminates error propagation via shared transforms but is inferior in ME/MC in shared latent domains. To address this limitation, in this paper, we propose a novel unifiedtransform framework with dual-domain progressive temporal alignment and quality-conditioned mixture-of-expert (QCMoE) to enable quality-consistent and error-propagation-free streaming for learned video compression. Specifically, we propose dualdomain progressive temporal alignment for ME/MC that leverages coarse pixel-domain alignment and refined latent-domain alignment to significantly enhance temporal context modeling in a coarse-to-fine fashion. The coarse pixel-domain alignment efficiently handles simple motion patterns with optical flow estimated from a single reference frame, while the refined latent-domain alignment develops a Flow-Guided Deformable Transformer (FGDT) over latents from multiple reference frames to achieve long-term motion refinement (LTMR) for complex motion patterns. Furthermore, we design a QCMoE module for continuous bit-rate adaptation that dynamically assigns different experts to adjust quantization steps per pixel based on target quality and content rather than relies on a single quantization step. QCMoE allows continuous and consistent rate control with appealing R-D performance. Experimental results show that the proposed method achieves competitive R-D performance compared with the state-of-the-arts, while successfully eliminating error propagation.