Geometric Transformation-Embedded Mamba for Learned Video Compression

📄 arXiv: 2603.07912v1 📥 PDF

作者: Hao Wei, Yanhui Zhou, Chenyang Ge

分类: cs.CV

发布日期: 2026-03-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出几何变换嵌入的Mamba模型,用于提升学习型视频压缩的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频压缩 学习型视频编码 Mamba模型 时空依赖 熵模型

📋 核心要点

  1. 传统学习型视频压缩依赖显式运动估计和补偿,流程复杂,本文旨在简化视频压缩流程。
  2. 论文核心在于设计了级联Mamba模块(CMM)和局部细化前馈网络(LRFFN),分别用于捕获长程时空依赖和增强局部空间表示。
  3. 实验结果表明,该方法在低比特率下,相比现有技术,在感知质量和时间一致性方面均有提升。

📝 摘要(中文)

本文提出了一种基于直接变换策略的精简高效视频压缩框架,该框架包括非线性变换、量化和熵编码。为了有效探索长程时空依赖关系,我们设计了一个嵌入不同几何变换的级联Mamba模块(CMM)。为了增强局部空间表示,我们引入了一个局部细化前馈网络(LRFFN),该网络结合了基于差分卷积的混合卷积块。我们将提出的CMM和LRFFN集成到压缩框架的编码器和解码器中。此外,我们还提出了一个条件通道式熵模型,该模型有效地利用条件时间先验来准确估计当前潜在特征的概率分布。大量实验表明,在低比特率约束下,我们的方法在感知质量和时间一致性方面优于最先进的视频压缩方法。

🔬 方法详解

问题定义:现有学习型视频压缩方法通常采用混合编码范式,需要显式的运动估计和补偿,导致流程复杂,计算量大。本文旨在解决这一问题,提出一种更简洁有效的视频压缩框架。

核心思路:论文的核心思路是采用直接变换策略,即通过非线性变换、量化和熵编码直接进行视频压缩,避免了复杂的运动估计和补偿过程。通过设计特定的网络结构来捕获视频中的时空依赖关系,从而提高压缩效率。

技术框架:该视频压缩框架主要包括编码器和解码器两部分。编码器首先使用级联Mamba模块(CMM)和局部细化前馈网络(LRFFN)提取视频帧的特征,然后进行量化。解码器则执行相反的操作,首先进行反量化,然后使用CMM和LRFFN重建视频帧。此外,还使用了一个条件通道式熵模型来估计潜在特征的概率分布,用于熵编码和解码。

关键创新:论文的关键创新在于以下几点:1) 提出了级联Mamba模块(CMM),通过嵌入不同的几何变换来有效探索长程时空依赖关系。2) 引入了局部细化前馈网络(LRFFN),利用混合卷积块增强局部空间表示。3) 设计了条件通道式熵模型,利用时间先验信息更准确地估计潜在特征的概率分布。与现有方法相比,该方法避免了复杂的运动估计和补偿,简化了压缩流程。

关键设计:CMM模块中,几何变换的具体形式未知,但其目的是为了更好地捕捉时空依赖。LRFFN模块中,混合卷积块的具体结构未知,但其目的是为了提升局部空间特征的表达能力。条件通道式熵模型利用了条件时间先验,具体实现方式未知,但其目的是为了更准确地估计当前潜在特征的概率分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在低比特率约束下,在感知质量和时间一致性方面优于现有的视频压缩方法。具体的性能数据和对比基线未在摘要中给出,但作者声明该方法在主观质量和时间一致性上有所提升。

🎯 应用场景

该研究成果可应用于各种视频压缩场景,尤其是在低带宽或存储空间受限的情况下,例如视频会议、在线视频流媒体、移动视频传输和存储等。通过提高压缩效率和感知质量,可以为用户提供更好的视频体验,并降低视频传输和存储的成本。未来,该方法有望进一步扩展到更高分辨率和更复杂场景的视频压缩。

📄 摘要(原文)

Although learned video compression methods have exhibited outstanding performance, most of them typically follow a hybrid coding paradigm that requires explicit motion estimation and compensation, resulting in a complex solution for video compression. In contrast, we introduce a streamlined yet effective video compression framework founded on a direct transform strategy, i.e., nonlinear transform, quantization, and entropy coding. We first develop a cascaded Mamba module (CMM) with different embedded geometric transformations to effectively explore both long-range spatial and temporal dependencies. To improve local spatial representation, we introduce a locality refinement feed-forward network (LRFFN) that incorporates a hybrid convolution block based on difference convolutions. We integrate the proposed CMM and LRFFN into the encoder and decoder of our compression framework. Moreover, we present a conditional channel-wise entropy model that effectively utilizes conditional temporal priors to accurately estimate the probability distributions of current latent features. Extensive experiments demonstrate that our method outperforms state-of-the-art video compression approaches in terms of perceptual quality and temporal consistency under low-bitrate constraints. Our source codes and models will be available at https://github.com/cshw2021/GTEM-LVC.