CMamba: Learned Image Compression with State Space Models

作者: Zhuojie Wu, Heming Du, Shuyun Wang, Ming Lu, Haiyang Sun, Yandong Guo, Xin Yu

分类: eess.IV, cs.CV

发布日期: 2025-02-07

💡 一句话要点

CMamba：一种基于状态空间模型的学习型图像压缩方法，兼顾高性能与低复杂度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像压缩 状态空间模型 卷积神经网络 率失真优化 学习型压缩

📋 核心要点

现有学习型图像压缩方法在率失真性能和计算复杂度之间难以平衡，尤其是在参数量、FLOPs和延迟方面。
CMamba通过混合卷积和状态空间模型，利用CA-SSM模块融合全局内容和局部细节，并使用CAE模块减少潜在表示中的冗余。
实验结果表明，CMamba在率失真性能上表现出色，证明了该方法在图像压缩方面的有效性。

📝 摘要（中文）

本文提出了一种基于卷积和状态空间模型（SSM）的混合图像压缩框架，名为CMamba，旨在以低计算复杂度实现卓越的率失真性能。CMamba引入了两个关键组件：内容自适应SSM（CA-SSM）模块和上下文感知熵（CAE）模块。CA-SSM模块动态融合SSM块提取的全局内容和CNN块捕获的局部细节，从而在编码和解码阶段良好地保留重要的图像内容。CAE模块旨在减少潜在表示中的空间和通道冗余。CAE利用SSM来参数化潜在表示中的空间内容，显著提高空间压缩效率，同时减少空间内容冗余。此外，CAE沿通道维度以自回归方式减少潜在表示的通道间冗余，充分利用来自先前通道的先验知识，且不牺牲效率。实验结果表明，CMamba实现了卓越的率失真性能。

🔬 方法详解

问题定义：现有的学习型图像压缩方法，如基于CNN和Transformer的方法，在建模图像内容分布以实现高效压缩方面取得了进展。然而，如何在保持较低计算复杂度（参数量、FLOPs、延迟）的同时，实现高率失真性能仍然是一个挑战。

核心思路：CMamba的核心思路是结合CNN和SSM的优势。SSM擅长建模全局内容，但容易丢失高频细节；CNN则擅长捕获局部细节。通过内容自适应地融合两者，可以更好地保留图像内容，同时利用SSM在建模序列数据方面的优势来减少潜在表示中的冗余。

技术框架：CMamba包含编码器、量化器和解码器三个主要部分。编码器将输入图像转换为潜在表示，量化器对潜在表示进行量化，解码器将量化后的潜在表示重构为图像。关键模块包括：1) 内容自适应SSM (CA-SSM) 模块，用于在编码器和解码器中融合CNN和SSM的特征；2) 上下文感知熵 (CAE) 模块，用于减少潜在表示中的空间和通道冗余。CAE利用SSM建模空间内容，并采用自回归方式建模通道间依赖。

关键创新：CMamba的关键创新在于CA-SSM模块和CAE模块的设计。CA-SSM模块能够动态地融合全局内容和局部细节，克服了SSM丢失高频细节的缺点。CAE模块利用SSM和自回归建模，有效地减少了潜在表示中的空间和通道冗余，提高了压缩效率。与传统的基于CNN或Transformer的方法相比，CMamba在计算复杂度和率失真性能之间取得了更好的平衡。

关键设计：CA-SSM模块通过门控机制动态地融合CNN和SSM的特征。CAE模块使用SSM来参数化空间内容，并使用自回归模型来建模通道间的依赖关系。损失函数通常包括率失真损失，用于平衡压缩率和重构质量。具体的网络结构和参数设置需要根据具体的应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CMamba在率失真性能上优于现有的学习型图像压缩方法。具体而言，CMamba在相同码率下，能够获得更高的PSNR和MS-SSIM值。此外，CMamba的计算复杂度较低，参数量和FLOPs都明显低于基于Transformer的方法，使其更适合实际应用。

🎯 应用场景

CMamba具有广泛的应用前景，包括图像存储、图像传输、视频会议、流媒体服务等。该方法能够在保证图像质量的前提下，显著降低存储空间和传输带宽，从而提高用户体验和降低运营成本。此外，CMamba还可以应用于移动设备和嵌入式系统等资源受限的场景。

📄 摘要（原文）

Learned Image Compression (LIC) has explored various architectures, such as Convolutional Neural Networks (CNNs) and transformers, in modeling image content distributions in order to achieve compression effectiveness. However, achieving high rate-distortion performance while maintaining low computational complexity (\ie, parameters, FLOPs, and latency) remains challenging. In this paper, we propose a hybrid Convolution and State Space Models (SSMs) based image compression framework, termed \textit{CMamba}, to achieve superior rate-distortion performance with low computational complexity. Specifically, CMamba introduces two key components: a Content-Adaptive SSM (CA-SSM) module and a Context-Aware Entropy (CAE) module. First, we observed that SSMs excel in modeling overall content but tend to lose high-frequency details. In contrast, CNNs are proficient at capturing local details. Motivated by this, we propose the CA-SSM module that can dynamically fuse global content extracted by SSM blocks and local details captured by CNN blocks in both encoding and decoding stages. As a result, important image content is well preserved during compression. Second, our proposed CAE module is designed to reduce spatial and channel redundancies in latent representations after encoding. Specifically, our CAE leverages SSMs to parameterize the spatial content in latent representations. Benefiting from SSMs, CAE significantly improves spatial compression efficiency while reducing spatial content redundancies. Moreover, along the channel dimension, CAE reduces inter-channel redundancies of latent representations via an autoregressive manner, which can fully exploit prior knowledge from previous channels without sacrificing efficiency. Experimental results demonstrate that CMamba achieves superior rate-distortion performance.

CMamba: Learned Image Compression with State Space Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理