ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal
作者: Xiujin Zhu, Chee-Onn Chow, Joon Huang Chuah
分类: cs.CV
发布日期: 2024-11-05 (更新: 2025-08-08)
🔗 代码/项目: GITHUB
💡 一句话要点
ShadowMamba:基于边界区域选择性扫描的状态空间模型,用于阴影去除
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 阴影去除 状态空间模型 Mamba 选择性扫描 图像处理
📋 核心要点
- Transformer阴影去除方法计算复杂度高,局部注意力方法难以建模全局信息和感知亮度变化。
- 提出边界区域选择性扫描机制,在捕获局部细节的同时,增强阴影边界和内部区域的语义连续性。
- ShadowMamba在AISTD、ISTD和SRD数据集上超越现有方法,并在参数效率和计算复杂度上具有优势。
📝 摘要(中文)
图像阴影去除是一项典型的底层视觉任务。阴影会导致局部亮度变化,从而降低下游视觉任务的性能。目前,基于Transformer的阴影去除方法由于自注意力机制而面临二次计算复杂度。为了提高效率,许多方法采用局部注意力,但这限制了对全局信息的建模能力,并削弱了对区域间亮度变化的感知。最近,Mamba通过线性复杂度的全局建模在视觉任务中表现出强大的性能。然而,现有的扫描策略不适用于阴影去除,因为它们忽略了阴影边界和内部区域的语义连续性。为了解决这个问题,本文提出了一种边界区域选择性扫描机制,该机制在捕获局部细节的同时,增强了它们之间的语义连续性,从而有效地提高了阴影去除性能。此外,还引入了一种阴影掩模去噪方法来支持扫描机制并提高数据质量。基于这些技术,本文提出了一种名为ShadowMamba的模型,这是第一个专为阴影去除设计的基于Mamba的模型。实验结果表明,该方法在AISTD、ISTD和SRD数据集上优于现有的主流方法,并且在参数效率和计算复杂度方面也具有明显的优势。
🔬 方法详解
问题定义:图像阴影去除旨在消除图像中阴影的影响,恢复被阴影遮蔽区域的真实颜色和纹理。现有基于Transformer的方法计算复杂度高,难以应用于高分辨率图像。而基于局部注意力的方法虽然降低了计算复杂度,但忽略了全局信息,无法有效感知阴影区域的亮度变化和语义连续性。
核心思路:本文的核心思路是利用Mamba模型线性复杂度的全局建模能力,并针对阴影去除任务的特点,设计一种新的扫描策略。通过边界区域选择性扫描,模型能够更好地关注阴影边界和内部区域的语义连续性,从而提高阴影去除的效果。同时,引入阴影掩模去噪方法,提升数据质量,辅助扫描机制。
技术框架:ShadowMamba模型主要包含三个部分:特征提取模块、边界区域选择性扫描模块和阴影掩模去噪模块。首先,特征提取模块用于提取输入图像的特征。然后,边界区域选择性扫描模块利用Mamba模型和设计的扫描策略,对特征进行全局建模,并关注阴影边界和内部区域的语义连续性。最后,阴影掩模去噪模块用于提高阴影掩模的质量,辅助扫描机制。
关键创新:本文最重要的技术创新点在于提出了边界区域选择性扫描机制。该机制不同于传统的逐行扫描或随机扫描,而是根据阴影的特点,选择性地扫描阴影边界和内部区域,从而更好地捕捉阴影的语义信息。此外,将Mamba模型引入阴影去除任务,并针对该任务进行了优化,也是一个重要的创新。
关键设计:边界区域选择性扫描机制的关键在于如何选择需要扫描的区域。本文采用了一种基于阴影掩模的策略,首先利用阴影掩模确定阴影区域的边界,然后选择边界附近的区域和阴影内部的区域进行扫描。阴影掩模去噪模块采用了一种基于U-Net的网络结构,用于去除阴影掩模中的噪声,提高阴影掩模的准确性。损失函数方面,使用了L1损失和感知损失的组合,以保证阴影去除后的图像在像素级别和感知级别上都与真实图像相似。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ShadowMamba在AISTD、ISTD和SRD三个阴影去除数据集上均取得了优于现有主流方法的性能。例如,在AISTD数据集上,ShadowMamba的PSNR指标比现有最佳方法提高了约0.5dB,同时参数量和计算复杂度也显著降低。这表明ShadowMamba在阴影去除任务中具有明显的优势。
🎯 应用场景
ShadowMamba可应用于图像编辑、计算机视觉等领域。例如,在图像编辑中,可以用于去除照片中的阴影,提高照片质量。在计算机视觉中,可以作为预处理步骤,提高目标检测、图像分割等任务的性能,尤其是在光照条件不佳的情况下。该研究的未来影响在于推动基于状态空间模型的视觉任务发展,并为阴影去除提供更高效、更准确的解决方案。
📄 摘要(原文)
Image shadow removal is a typical low-level vision task. Shadows cause local brightness shifts, which reduce the performance of downstream vision tasks. Currently, Transformer-based shadow removal methods suffer from quadratic computational complexity due to the self-attention mechanism. To improve efficiency, many approaches use local attention, but this limits the ability to model global information and weakens the perception of brightness changes between regions. Recently, Mamba has shown strong performance in vision tasks by enabling global modeling with linear complexity. However, existing scanning strategies are not suitable for shadow removal, as they ignore the semantic continuity of shadow boundaries and internal regions. To address this, this paper proposes a boundary-region selective scanning mechanism that captures local details while enhancing semantic continuity between them, effectively improving shadow removal performance. In addition, a shadow mask denoising method is introduced to support the scanning mechanism and improve data quality. Based on these techniques, this paper presents a model called ShadowMamba, the first Mamba-based model designed for shadow removal. Experimental results show that the proposed method outperforms existing mainstream approaches on the AISTD, ISTD, and SRD datasets, and also offers clear advantages in parameter efficiency and computational complexity. Code is available at: https://github.com/ZHUXIUJINChris/ShadowMamba