First-order State Space Model for Lightweight Image Super-resolution

📄 arXiv: 2509.08458v2 📥 PDF

作者: Yujie Zhu, Xinyi Zhang, Yekai Lu, Guang Yang, Faming Fang, Guixu Zhang

分类: cs.CV

发布日期: 2025-09-10 (更新: 2025-10-17)

备注: Accept by ICASSP 2025 (Oral)

期刊: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

DOI: 10.1109/ICASSP49660.2025.10887656


💡 一句话要点

提出一阶状态空间模型(FSSM),提升轻量级图像超分辨率性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像超分辨率 状态空间模型 Mamba 一阶保持 轻量级模型

📋 核心要点

  1. 现有基于Mamba的视觉模型主要关注网络架构和扫描路径,对SSM模块本身的优化不足。
  2. 通过在SSM中引入一阶保持条件,提出FSSM,旨在增强token间的相关性,提升超分辨率性能。
  3. 实验表明,FSSM在不增加参数量的情况下,显著提升了MambaIR在多个数据集上的超分辨率效果。

📝 摘要(中文)

本文提出了一种名为一阶状态空间模型(FSSM)的新方法,旨在改进原始Mamba模块,通过整合token间的相关性来提升性能,尤其是在轻量级超分辨率任务中。与以往主要关注网络架构和扫描路径的基于Mamba的视觉模型不同,本文侧重于优化SSM模块本身的计算过程,且不增加参数量。FSSM在SSM中引入了一阶保持条件,推导出了新的离散形式,并分析了累积误差。大量实验结果表明,FSSM在不增加额外参数的情况下,提高了MambaIR在五个基准数据集上的性能,超越了当前轻量级超分辨率方法,实现了最先进的结果。

🔬 方法详解

问题定义:现有的基于Mamba的视觉模型在图像超分辨率任务中,虽然展现了一定的潜力,但主要集中在网络架构和扫描路径的设计上,忽略了状态空间模型(SSM)模块本身的优化。这导致SSM的潜力没有被充分挖掘,尤其是在轻量级超分辨率任务中,如何在有限的计算资源下提升性能是一个挑战。

核心思路:本文的核心思路是通过改进SSM模块的计算过程,在不增加参数量的前提下,提升模型对token间相关性的建模能力。具体来说,引入一阶保持条件(First-order Hold Condition)到SSM中,从而更好地捕捉图像中的局部和全局信息。

技术框架:FSSM方法主要是在Mamba架构的基础上,替换了原有的SSM模块。整体流程保持不变,仍然包括特征提取、FSSM模块处理和图像重建等步骤。关键在于FSSM模块的内部计算方式,它基于一阶保持条件对SSM进行离散化,从而改变了状态转移矩阵的计算方式。

关键创新:最重要的技术创新点在于将一阶保持条件引入到SSM的离散化过程中。传统的SSM离散化方法通常采用零阶保持,而一阶保持能够更精确地模拟连续时间系统的行为,从而更好地捕捉token间的相关性。与现有方法的本质区别在于,FSSM改变了SSM内部状态的更新方式,使其能够更有效地利用图像信息。

关键设计:FSSM的关键设计在于一阶保持条件下的离散化公式推导。论文详细推导了在引入一阶保持条件后,状态转移矩阵A和输入矩阵B的离散化形式。此外,论文还分析了由于离散化带来的累积误差,并提出了相应的缓解措施。在具体实现上,FSSM模块可以直接替换Mamba架构中的原始SSM模块,无需修改其他部分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FSSM在五个基准数据集上均取得了显著的性能提升,超越了现有的轻量级超分辨率方法。具体来说,FSSM在不增加额外参数的情况下,提高了MambaIR的性能,并在多个指标上达到了state-of-the-art水平。这些结果验证了FSSM在轻量级超分辨率任务中的有效性。

🎯 应用场景

该研究成果可广泛应用于图像超分辨率重建领域,例如在移动设备上提升低分辨率图像的清晰度,在视频监控系统中增强图像细节,以及在医学影像分析中提高图像质量,具有重要的实际应用价值。未来,该方法有望扩展到其他图像处理任务,如图像去噪、图像增强等。

📄 摘要(原文)

State space models (SSMs), particularly Mamba, have shown promise in NLP tasks and are increasingly applied to vision tasks. However, most Mamba-based vision models focus on network architecture and scan paths, with little attention to the SSM module. In order to explore the potential of SSMs, we modified the calculation process of SSM without increasing the number of parameters to improve the performance on lightweight super-resolution tasks. In this paper, we introduce the First-order State Space Model (FSSM) to improve the original Mamba module, enhancing performance by incorporating token correlations. We apply a first-order hold condition in SSMs, derive the new discretized form, and analyzed cumulative error. Extensive experimental results demonstrate that FSSM improves the performance of MambaIR on five benchmark datasets without additionally increasing the number of parameters, and surpasses current lightweight SR methods, achieving state-of-the-art results.