MambaCSR: Dual-Interleaved Scanning for Compressed Image Super-Resolution With SSMs

📄 arXiv: 2408.11758v2 📥 PDF

作者: Yulin Ren, Xin Li, Mengxi Guo, Bingchen Li, Shijie Zhao, Zhibo Chen

分类: cs.CV

发布日期: 2024-08-21 (更新: 2024-11-26)

🔗 代码/项目: GITHUB


💡 一句话要点

MambaCSR:提出双重交错扫描的Mamba框架,用于压缩图像超分辨率重建。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 压缩图像超分辨率 Mamba 状态空间模型 双重交错扫描 上下文建模 图像重建 深度学习

📋 核心要点

  1. 现有压缩图像超分辨率方法难以有效建模图像的上下文信息,尤其是在存在非均匀压缩伪影的情况下。
  2. MambaCSR提出双重交错扫描策略,包括分层交错扫描和水平到垂直交错扫描,以更全面地捕获上下文信息并降低计算成本。
  3. 实验结果表明,MambaCSR在多个基准测试中表现出色,证明了其在压缩图像超分辨率任务中的有效性。

📝 摘要(中文)

本文提出了一种简单而有效的基于Mamba的框架MambaCSR,用于解决具有挑战性的压缩图像超分辨率(CSR)任务。 特别是,尽管Mamba依赖于选择性状态空间建模来处理所有token,但其扫描策略对于恢复过程中有效的上下文知识建模至关重要。 在这项工作中,我们为CSR提出了一种高效的双重交错扫描范式(DIS),它由两种扫描策略组成:(i)分层交错扫描,旨在通过同时利用基于局部窗口和顺序扫描方法,全面捕获和利用图像中最具潜力的上下文信息;(ii)水平到垂直交错扫描,旨在通过减少不同方向扫描之间的冗余来降低计算成本。 为了克服非均匀压缩伪影,我们还提出了位置对齐的跨尺度扫描来建模多尺度上下文信息。 在多个基准测试上的实验结果表明,我们的MambaCSR在压缩图像超分辨率任务中表现出色。 代码即将发布在https://github.com/renyulin-f/MambaCSR。

🔬 方法详解

问题定义:压缩图像超分辨率(CSR)旨在从压缩后的低分辨率图像重建出高质量的高分辨率图像。现有方法在建模图像的上下文信息方面存在不足,尤其是在处理非均匀压缩伪影时,难以充分利用图像中的潜在信息,导致重建效果不佳。

核心思路:MambaCSR的核心思路是利用Mamba架构强大的序列建模能力,并通过精心设计的双重交错扫描策略,更有效地捕获和利用图像的上下文信息。通过分层交错扫描,同时利用局部窗口和全局序列信息;通过水平到垂直交错扫描,减少计算冗余,提高效率。

技术框架:MambaCSR的整体框架基于Mamba架构,主要包括输入图像、特征提取模块、Mamba模块以及重建模块。首先,输入压缩后的低分辨率图像,通过特征提取模块提取图像特征。然后,利用多个Mamba模块进行特征的上下文建模,其中采用了双重交错扫描策略。最后,通过重建模块将特征映射到高分辨率图像。

关键创新:MambaCSR的关键创新在于提出的双重交错扫描(DIS)范式,它包含:1)分层交错扫描,结合了局部窗口和全局序列扫描的优点,更全面地捕获上下文信息;2)水平到垂直交错扫描,通过减少不同方向扫描的冗余,降低计算成本。此外,还提出了位置对齐的跨尺度扫描来建模多尺度上下文信息,以克服非均匀压缩伪影。

关键设计:MambaCSR的关键设计包括:1)分层交错扫描的具体实现方式,如何平衡局部和全局信息的利用;2)水平到垂直交错扫描的扫描顺序和策略;3)位置对齐的跨尺度扫描中,不同尺度特征的融合方式;4)Mamba模块的具体参数设置,如状态维度、选择机制等;5)损失函数的设计,例如是否引入感知损失或对抗损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaCSR在多个压缩图像超分辨率基准测试中取得了显著的性能提升。实验结果表明,相比于现有的先进方法,MambaCSR在PSNR和SSIM等指标上均有明显提高,尤其是在处理具有严重压缩伪影的图像时,重建效果更加出色。具体的性能数据将在论文的实验部分详细展示。

🎯 应用场景

MambaCSR在压缩图像超分辨率领域具有广泛的应用前景,例如在视频监控、遥感图像处理、医学影像分析等领域,可以用于提升压缩图像的视觉质量,提高后续分析任务的准确性。该研究的成果有助于在资源受限的环境下,实现更高质量的图像重建,具有重要的实际价值和潜在的社会效益。

📄 摘要(原文)

We present MambaCSR, a simple but effective framework based on Mamba for the challenging compressed image super-resolution (CSR) task. Particularly, the scanning strategies of Mamba are crucial for effective contextual knowledge modeling in the restoration process despite it relying on selective state space modeling for all tokens. In this work, we propose an efficient dual-interleaved scanning paradigm (DIS) for CSR, which is composed of two scanning strategies: (i) hierarchical interleaved scanning is designed to comprehensively capture and utilize the most potential contextual information within an image by simultaneously taking advantage of the local window-based and sequential scanning methods; (ii) horizontal-to-vertical interleaved scanning is proposed to reduce the computational cost by leaving the redundancy between the scanning of different directions. To overcome the non-uniform compression artifacts, we also propose position-aligned cross-scale scanning to model multi-scale contextual information. Experimental results on multiple benchmarks have shown the great performance of our MambaCSR in the compressed image super-resolution task. The code will be soon available in~\textcolor{magenta}{\url{https://github.com/renyulin-f/MambaCSR}}.