XYScanNet: A State Space Model for Single Image Deblurring
作者: Hanzhou Liu, Chengkai Liu, Jiacong Xu, Peng Jiang, Mi Lu
分类: cs.CV
发布日期: 2024-12-13 (更新: 2025-04-17)
期刊: Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR) Workshops, 2025
💡 一句话要点
提出XYScanNet,利用状态空间模型和切片扫描策略进行单图像去模糊。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像去模糊 状态空间模型 Mamba架构 视觉状态空间模块 切片扫描策略
📋 核心要点
- 现有基于Mamba的图像复原方法采用flatten-and-scan策略,忽略局部像素依赖,导致空间错位和噪声感知能力下降。
- 论文提出slice-and-scan策略,交替沿intra-slice和inter-slice扫描,并设计视觉状态空间模块(VSSM)提升效率。
- 实验结果表明,XYScanNet在图像去模糊任务中,在保持失真指标的同时,显著提升了感知性能,KID指标提升17%。
📝 摘要(中文)
本文提出了一种基于深度状态空间模型(SSM)的图像去模糊方法,旨在克服现有基于Mamba架构的方法的局限性。现有方法采用flatten-and-scan策略,忽略了局部像素依赖性,并引入了空间错位。为了解决这些问题,本文提出了一种新颖的slice-and-scan策略,该策略交替地沿intra-slice和inter-slice进行扫描。此外,本文还设计了一个新的视觉状态空间模块(VSSM)用于图像去模糊,并解决了当前基于Mamba的视觉模块的效率挑战。在此基础上,开发了XYScanNet,这是一种集成了轻量级特征融合模块的SSM架构,用于增强图像去模糊效果。实验结果表明,XYScanNet在保持竞争性的失真指标的同时,显著提高了感知性能,并且相比最近的竞争对手,KID指标提升了17%。
🔬 方法详解
问题定义:论文旨在解决单图像去模糊问题。现有基于Mamba架构的方法,如直接将图像块展平为一维序列进行扫描,忽略了图像的局部像素依赖关系,造成空间错位,降低了模型对局部噪声的感知能力,最终影响去模糊效果。
核心思路:论文的核心思路是设计一种新的扫描策略,即slice-and-scan,交替地在图像的水平和垂直方向上进行扫描,从而更好地捕捉图像的局部结构信息。同时,设计高效的视觉状态空间模块(VSSM)来提升计算效率。
技术框架:XYScanNet的整体架构是一个基于状态空间模型的网络,主要包括以下几个模块:1) 输入图像经过预处理;2) 使用slice-and-scan策略和VSSM模块提取图像特征;3) 使用轻量级特征融合模块融合不同尺度的特征;4) 最后通过重建模块得到去模糊后的图像。
关键创新:论文的关键创新在于提出了slice-and-scan扫描策略和视觉状态空间模块(VSSM)。slice-and-scan策略通过交替扫描水平和垂直方向,更好地保留了图像的局部结构信息,克服了传统flatten-and-scan策略的缺点。VSSM模块则针对Mamba模型在视觉任务中的效率问题进行了优化。
关键设计:slice-and-scan策略的具体实现方式是,首先将图像沿水平方向切分成多个slice,然后对每个slice进行扫描;接着,将图像沿垂直方向切分成多个slice,再次对每个slice进行扫描。VSSM模块的具体结构未知,但其目标是提高Mamba模型在处理图像数据时的效率。轻量级特征融合模块的具体结构也未知,但其目标是在不增加过多计算量的前提下,有效融合不同尺度的特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,XYScanNet在图像去模糊任务中取得了显著的性能提升。与现有最先进的方法相比,XYScanNet在保持竞争性的失真指标(具体数值未知)的同时,显著提高了感知性能,KID指标提升了17%。这表明XYScanNet在生成更清晰、更逼真的图像方面具有优势。
🎯 应用场景
该研究成果可应用于各种需要图像去模糊的场景,例如监控视频修复、老照片修复、医学图像增强等。通过提升图像的清晰度和感知质量,可以改善视觉体验,提高后续图像分析和处理的准确性。未来,该方法有望扩展到其他图像复原任务,如图像超分辨率和图像去噪。
📄 摘要(原文)
Deep state-space models (SSMs), like recent Mamba architectures, are emerging as a promising alternative to CNN and Transformer networks. Existing Mamba-based restoration methods process visual data by leveraging a flatten-and-scan strategy that converts image patches into a 1D sequence before scanning. However, this scanning paradigm ignores local pixel dependencies and introduces spatial misalignment by positioning distant pixels incorrectly adjacent, which reduces local noise-awareness and degrades image sharpness in low-level vision tasks. To overcome these issues, we propose a novel slice-and-scan strategy that alternates scanning along intra- and inter-slices. We further design a new Vision State Space Module (VSSM) for image deblurring, and tackle the inefficiency challenges of the current Mamba-based vision module. Building upon this, we develop XYScanNet, an SSM architecture integrated with a lightweight feature fusion module for enhanced image deblurring. XYScanNet, maintains competitive distortion metrics and significantly improves perceptual performance. Experimental results show that XYScanNet enhances KID by $17\%$ compared to the nearest competitor.