Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement

📄 arXiv: 2410.20314v1 📥 PDF

作者: Junhao Tan, Songwen Pei, Wei Qin, Bo Fu, Ximing Li, Libo Huang

分类: cs.CV, eess.IV

发布日期: 2024-10-27

备注: 18 pages, 8 figures, ACCV2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于小波变换Mamba和傅里叶调整的WalMaFa模型,用于低光照图像增强。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 低光照图像增强 小波变换 傅里叶变换 Mamba 深度学习

📋 核心要点

  1. 现有低光照图像增强方法对频率信息的利用不足,未能充分挖掘小波和傅里叶空间中的全局和局部信息。
  2. 提出WalMaFa模型,结合小波变换Mamba块(WMB)和快速傅里叶调整块(FFAB),分别增强全局亮度和微调局部细节。
  3. 实验结果表明,WalMaFa模型在低光照图像增强任务上取得了state-of-the-art的性能,同时降低了计算资源消耗。

📝 摘要(中文)

本文提出了一种新颖的基于小波变换Mamba和傅里叶调整的模型WalMaFa,用于低光照图像增强(LLIE)。现有基于频率的方法主要在简单的图像小波或傅里叶空间中操作,缺乏对每个空间中有效全局和局部信息的利用。研究发现,小波频率信息因其低频分量而对全局亮度更敏感,而傅里叶频率信息因其相位分量而对局部细节更敏感。为了通过优化地将空间通道信息与小波变换中的低频分量相结合来实现卓越的初步亮度增强,引入了通道式Mamba,它弥补了CNN的远程依赖性,并且与Diffusion和Transformer模型相比具有更低的复杂度。WalMaFa由基于小波变换的Mamba块(WMB)和快速傅里叶调整块(FFAB)组成。采用编码器-潜在层-解码器结构来完成端到端转换。具体来说,WMB被用于编码器和解码器中以增强全局亮度,而FFAB被用于潜在层中以微调局部纹理细节并减轻模糊。大量实验表明,所提出的WalMaFa以更少的计算资源和更快的速度实现了最先进的性能。代码已在https://github.com/mcpaulgeorge/WalMaFa上提供。

🔬 方法详解

问题定义:论文旨在解决低光照图像增强问题。现有基于频率的方法,如基于小波变换或傅里叶变换的方法,通常独立地在各自的频率空间进行操作,未能有效融合全局和局部信息。这些方法要么侧重于全局亮度调整,要么侧重于局部细节增强,缺乏一种能够同时兼顾两者并有效利用不同频率分量信息的统一框架。

核心思路:论文的核心思路是结合小波变换和傅里叶变换的优势,利用小波变换对全局亮度敏感的特性进行初步的亮度增强,并利用傅里叶变换对局部细节敏感的特性进行细节微调。同时,引入Mamba结构来捕获长程依赖关系,弥补了CNN在这方面的不足,并降低了计算复杂度。

技术框架:WalMaFa模型采用编码器-潜在层-解码器的结构。编码器使用基于小波变换的Mamba块(WMB)提取图像特征并进行初步的亮度增强。潜在层使用快速傅里叶调整块(FFAB)对局部纹理细节进行微调,并减轻模糊。解码器再次使用WMB进行图像重建,并进一步增强亮度。整个过程是端到端可训练的。

关键创新:论文的关键创新在于:1) 提出了结合小波变换和傅里叶变换的低光照图像增强框架,充分利用了不同频率分量的信息。2) 引入了通道式Mamba结构,用于捕获长程依赖关系,并降低了计算复杂度。3) 设计了WMB和FFAB两个关键模块,分别用于全局亮度增强和局部细节微调。与现有方法相比,WalMaFa能够更好地平衡全局亮度和局部细节,从而获得更好的增强效果。

关键设计:WMB模块使用小波变换提取低频分量,并将其与空间通道信息结合,然后通过Mamba结构进行处理。FFAB模块使用快速傅里叶变换提取相位信息,并对其进行调整以增强局部细节。损失函数未知,但通常会包含像素级别的损失和感知损失,以保证图像质量和视觉效果。具体的网络结构参数(如Mamba块的层数、通道数等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WalMaFa模型在多个低光照图像增强数据集上取得了state-of-the-art的性能。与现有方法相比,WalMaFa在PSNR、SSIM等指标上均有显著提升,同时降低了计算资源消耗和运行时间。具体的性能数据和提升幅度未知,但摘要中明确指出WalMaFa在计算资源和速度方面优于现有方法。

🎯 应用场景

该研究成果可应用于各种低光照图像增强场景,例如夜间监控、医学图像处理、水下图像增强等。通过提高低光照图像的可见性和清晰度,可以帮助人们更好地理解和分析图像内容,从而提高工作效率和安全性。未来,该方法有望应用于自动驾驶、智能安防等领域。

📄 摘要(原文)

Frequency information (e.g., Discrete Wavelet Transform and Fast Fourier Transform) has been widely applied to solve the issue of Low-Light Image Enhancement (LLIE). However, existing frequency-based models primarily operate in the simple wavelet or Fourier space of images, which lacks utilization of valid global and local information in each space. We found that wavelet frequency information is more sensitive to global brightness due to its low-frequency component while Fourier frequency information is more sensitive to local details due to its phase component. In order to achieve superior preliminary brightness enhancement by optimally integrating spatial channel information with low-frequency components in the wavelet transform, we introduce channel-wise Mamba, which compensates for the long-range dependencies of CNNs and has lower complexity compared to Diffusion and Transformer models. So in this work, we propose a novel Wavelet-based Mamba with Fourier Adjustment model called WalMaFa, consisting of a Wavelet-based Mamba Block (WMB) and a Fast Fourier Adjustment Block (FFAB). We employ an Encoder-Latent-Decoder structure to accomplish the end-to-end transformation. Specifically, WMB is adopted in the Encoder and Decoder to enhance global brightness while FFAB is adopted in the Latent to fine-tune local texture details and alleviate ambiguity. Extensive experiments demonstrate that our proposed WalMaFa achieves state-of-the-art performance with fewer computational resources and faster speed. Code is now available at: https://github.com/mcpaulgeorge/WalMaFa.