SAMIC: A Lightweight Semantic-Aware Mamba for Efficient Perceptual Image Compression

📄 arXiv: 2605.04560v1 📥 PDF

作者: Jiaqian Zhang, Hao Wei, Chenyang Ge, Yanhui Zhou

分类: cs.CV

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出SAMIC:一种轻量级语义感知Mamba图像压缩方法,提升感知质量和压缩效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像压缩 感知压缩 Mamba 状态空间模型 语义感知 低比特率 冗余减少

📋 核心要点

  1. 现有感知图像压缩方法依赖GAN或扩散模型,模型复杂度高,难以在低比特率下保持视觉质量。
  2. 提出语义感知Mamba块(SAMB)和SVD冗余减少模块(SVD-RRM),利用Mamba的长程建模能力和语义特征引导扫描。
  3. 实验表明,该方法在率失真-感知权衡和模型复杂度方面优于现有方法,实现了更好的压缩性能。

📝 摘要(中文)

本文提出了一种高效的感知图像压缩方法,该方法利用状态空间模型(特别是Mamba)的长程建模能力和线性计算复杂度。与现有方法依赖固定扫描顺序从而损害语义连续性和空间相关性不同,我们开发了一种语义感知Mamba块(SAMB),通过动态聚类的语义特征引导扫描,从而缓解了Mamba固有的严格因果约束和长程信息衰减。受奇异值分解的启发,我们设计了一个SVD启发的冗余减少模块(SVD-RRM),通过引入可学习的软阈值对潜在特征执行低秩近似,从而减少通道方向的冗余信息。所提出的SAMB被集成到压缩框架的编码器和解码器中,而SVD-RRM仅被纳入编码器中。大量实验表明,我们的方法在率失真-感知权衡和模型复杂度方面优于最先进的方法。

🔬 方法详解

问题定义:现有的感知图像压缩方法,特别是基于GAN和扩散模型的方法,虽然在感知质量上表现出色,但模型复杂度高,计算成本大,难以在低比特率下实现高效压缩。此外,传统方法通常采用固定的扫描顺序,忽略了图像的语义信息,导致语义连续性和空间相关性受损。

核心思路:本文的核心思路是利用Mamba状态空间模型的长程依赖建模能力和线性计算复杂度,同时克服其固有的因果约束。通过引入语义感知机制,动态地调整扫描顺序,更好地捕捉图像的语义信息,从而提高压缩效率和感知质量。此外,利用SVD进行冗余信息压缩,进一步提升编码效率。

技术框架:SAMIC的整体框架包括编码器和解码器两部分。编码器首先将输入图像编码为潜在特征,然后通过SVD-RRM模块进行冗余信息压缩,再利用SAMB模块进行特征提取。解码器则接收编码后的特征,通过SAMB模块进行特征重建,最终解码为重建图像。SAMB模块同时存在于编码器和解码器中,而SVD-RRM模块只存在于编码器中。

关键创新:该论文的关键创新在于提出了语义感知Mamba块(SAMB)和SVD启发的冗余减少模块(SVD-RRM)。SAMB通过动态聚类的语义特征引导扫描,打破了Mamba固有的严格因果约束,更好地捕捉图像的语义信息。SVD-RRM则通过低秩近似减少通道方向的冗余信息,提高了编码效率。与现有方法相比,SAMIC在模型复杂度和压缩性能之间取得了更好的平衡。

关键设计:SAMB模块的关键设计在于如何动态地生成扫描顺序。论文采用聚类算法对图像的语义特征进行聚类,然后根据聚类结果动态地调整扫描顺序。SVD-RRM模块的关键设计在于可学习的软阈值,该阈值可以自适应地调整低秩近似的程度,从而在冗余信息压缩和特征信息保留之间取得平衡。损失函数方面,可能采用了率失真优化相关的损失函数,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAMIC在率失真-感知权衡方面优于现有的最先进方法。具体性能数据未知,但论文强调SAMIC在模型复杂度方面具有优势,这意味着它可以在资源受限的设备上高效运行。与现有方法相比,SAMIC在感知质量和压缩效率方面都取得了显著提升。

🎯 应用场景

SAMIC具有广泛的应用前景,包括图像存储、图像传输、视频会议、流媒体服务等。该方法可以在保证图像感知质量的前提下,显著降低存储空间和传输带宽,从而提高用户体验,降低运营成本。尤其是在带宽受限的移动设备上,SAMIC具有重要的应用价值。

📄 摘要(原文)

Perceptual image compression focuses on preserving high visual quality under low-bitrate constraints. Most existing approaches to perceptual compression leverage the strong generative capabilities of generative adversarial networks or diffusion models, at the cost of substantial model complexity. To this end, we present an efficient perceptual image compression method that exploits the long-range modeling capability and linear computational complexity of state space models, with a particular focus on Mamba. Unlike existing methods that rely on an inherently fixed scanning order and consequently impair semantic continuity and spatial correlation, we develop a semantic-aware Mamba block (SAMB) to enable scanning guided by dynamically clustered semantic features, thereby alleviating the strict causality constraints and long-range information decay inherent to Mamba. Inspired by singular value decomposition, we design an SVD-inspired redundancy reduction module (SVD-RRM) that performs a low-rank approximation on the latent features by introducing a learnable soft threshold, leading to channel-wise redundancy information reduction. The proposed SAMB is integrated into both the encoder and decoder of the compression framework, whereas the SVD-RRM is incorporated only in the encoder. Extensive experiments demonstrate that our method performs favorably against state-of-the-art approaches in terms of rate-distortion-perception tradeoff and model complexity. The source code and pretrained models will be available at https://github.com/Jasmine-aiq/SAMIC.