XYScanNet: A State Space Model for Single Image Deblurring

作者: Hanzhou Liu, Chengkai Liu, Jiacong Xu, Peng Jiang, Mi Lu

分类: cs.CV

发布日期: 2024-12-13 (更新: 2025-04-17)

期刊: Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR) Workshops, 2025

💡 一句话要点

提出XYScanNet，利用状态空间模型和切片扫描策略进行单图像去模糊。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像去模糊 状态空间模型 Mamba架构 视觉状态空间模块 切片扫描策略

📋 核心要点

现有基于Mamba的图像复原方法采用flatten-and-scan策略，忽略局部像素依赖，导致空间错位和噪声感知能力下降。
论文提出slice-and-scan策略，交替沿intra-slice和inter-slice扫描，并设计视觉状态空间模块（VSSM）提升效率。
实验结果表明，XYScanNet在图像去模糊任务中，在保持失真指标的同时，显著提升了感知性能，KID指标提升17%。

📝 摘要（中文）

本文提出了一种基于深度状态空间模型（SSM）的图像去模糊方法，旨在克服现有基于Mamba架构的方法的局限性。现有方法采用flatten-and-scan策略，忽略了局部像素依赖性，并引入了空间错位。为了解决这些问题，本文提出了一种新颖的slice-and-scan策略，该策略交替地沿intra-slice和inter-slice进行扫描。此外，本文还设计了一个新的视觉状态空间模块（VSSM）用于图像去模糊，并解决了当前基于Mamba的视觉模块的效率挑战。在此基础上，开发了XYScanNet，这是一种集成了轻量级特征融合模块的SSM架构，用于增强图像去模糊效果。实验结果表明，XYScanNet在保持竞争性的失真指标的同时，显著提高了感知性能，并且相比最近的竞争对手，KID指标提升了17%。

🔬 方法详解

问题定义：论文旨在解决单图像去模糊问题。现有基于Mamba架构的方法，如直接将图像块展平为一维序列进行扫描，忽略了图像的局部像素依赖关系，造成空间错位，降低了模型对局部噪声的感知能力，最终影响去模糊效果。

核心思路：论文的核心思路是设计一种新的扫描策略，即slice-and-scan，交替地在图像的水平和垂直方向上进行扫描，从而更好地捕捉图像的局部结构信息。同时，设计高效的视觉状态空间模块（VSSM）来提升计算效率。

技术框架：XYScanNet的整体架构是一个基于状态空间模型的网络，主要包括以下几个模块：1) 输入图像经过预处理；2) 使用slice-and-scan策略和VSSM模块提取图像特征；3) 使用轻量级特征融合模块融合不同尺度的特征；4) 最后通过重建模块得到去模糊后的图像。

关键创新：论文的关键创新在于提出了slice-and-scan扫描策略和视觉状态空间模块（VSSM）。slice-and-scan策略通过交替扫描水平和垂直方向，更好地保留了图像的局部结构信息，克服了传统flatten-and-scan策略的缺点。VSSM模块则针对Mamba模型在视觉任务中的效率问题进行了优化。

关键设计：slice-and-scan策略的具体实现方式是，首先将图像沿水平方向切分成多个slice，然后对每个slice进行扫描；接着，将图像沿垂直方向切分成多个slice，再次对每个slice进行扫描。VSSM模块的具体结构未知，但其目标是提高Mamba模型在处理图像数据时的效率。轻量级特征融合模块的具体结构也未知，但其目标是在不增加过多计算量的前提下，有效融合不同尺度的特征。

🖼️ 关键图片

📊 实验亮点

实验结果表明，XYScanNet在图像去模糊任务中取得了显著的性能提升。与现有最先进的方法相比，XYScanNet在保持竞争性的失真指标（具体数值未知）的同时，显著提高了感知性能，KID指标提升了17%。这表明XYScanNet在生成更清晰、更逼真的图像方面具有优势。

🎯 应用场景

该研究成果可应用于各种需要图像去模糊的场景，例如监控视频修复、老照片修复、医学图像增强等。通过提升图像的清晰度和感知质量，可以改善视觉体验，提高后续图像分析和处理的准确性。未来，该方法有望扩展到其他图像复原任务，如图像超分辨率和图像去噪。

📄 摘要（原文）

Deep state-space models (SSMs), like recent Mamba architectures, are emerging as a promising alternative to CNN and Transformer networks. Existing Mamba-based restoration methods process visual data by leveraging a flatten-and-scan strategy that converts image patches into a 1D sequence before scanning. However, this scanning paradigm ignores local pixel dependencies and introduces spatial misalignment by positioning distant pixels incorrectly adjacent, which reduces local noise-awareness and degrades image sharpness in low-level vision tasks. To overcome these issues, we propose a novel slice-and-scan strategy that alternates scanning along intra- and inter-slices. We further design a new Vision State Space Module (VSSM) for image deblurring, and tackle the inefficiency challenges of the current Mamba-based vision module. Building upon this, we develop XYScanNet, an SSM architecture integrated with a lightweight feature fusion module for enhanced image deblurring. XYScanNet, maintains competitive distortion metrics and significantly improves perceptual performance. Experimental results show that XYScanNet enhances KID by $17\%$ compared to the nearest competitor.

XYScanNet: A State Space Model for Single Image Deblurring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理