GPSMamba: A Global Phase and Spectral Prompt-guided Mamba for Infrared Image Super-Resolution
作者: Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Shinichiro Omachi
分类: cs.CV
发布日期: 2025-07-25 (更新: 2025-08-12)
备注: This manuscript is under review, and copyright will be transferred without notice
🔗 代码/项目: GITHUB
💡 一句话要点
GPSMamba:结合全局相位与频谱引导的Mamba红外图像超分辨率方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 红外图像超分辨率 状态空间模型 Mamba 全局上下文建模 非因果监督
📋 核心要点
- 红外图像超分辨率重建面临低对比度和纹理稀疏的挑战,现有方法难以有效建模长程依赖关系。
- GPSMamba通过自适应语义-频率状态空间模块注入非局部上下文,并利用热谱注意和相位一致性损失进行非因果监督。
- 实验结果表明,GPSMamba在红外图像超分辨率任务上取得了state-of-the-art的性能,验证了方法的有效性。
📝 摘要(中文)
红外图像超分辨率(IRSR)面临低对比度和稀疏纹理的挑战,需要强大的长程建模来维持全局一致性。虽然Mamba等状态空间模型擅长对此任务进行长程依赖建模,但其固有的1D因果扫描机制会分割2D图像的全局上下文,阻碍精细细节的恢复。为了解决这个问题,我们提出了全局相位和频谱引导的Mamba(GPSMamba),一个将架构引导与非因果监督相结合的框架。首先,我们的自适应语义-频率状态空间模块(ASF-SSM)将融合的语义-频率提示直接注入到Mamba块中,整合非局部上下文以指导重建。然后,一种新颖的热谱注意和相位一致性损失提供了显式的非因果监督,以加强全局结构和频谱保真度。通过结合这两个创新,我们的工作提出了一种系统的策略来缓解因果建模的局限性。大量实验表明,GPSMamba实现了最先进的性能,验证了我们的方法是红外图像恢复的强大新范例。
🔬 方法详解
问题定义:红外图像超分辨率重建任务旨在从低分辨率红外图像恢复出高分辨率图像。现有方法,尤其是基于卷积神经网络的方法,在建模长程依赖关系方面存在不足,难以捕捉红外图像的全局结构信息。Mamba等状态空间模型虽然擅长长程建模,但其1D因果扫描方式会割裂2D图像的全局上下文,影响细节恢复。
核心思路:GPSMamba的核心思路是结合架构引导和非因果监督,弥补Mamba模型在处理2D图像时全局上下文建模的不足。通过将语义和频率信息融合的提示注入Mamba块,引导模型关注全局信息。同时,利用热谱注意和相位一致性损失,显式地约束模型的输出,使其保持全局结构和频谱的保真度。
技术框架:GPSMamba的整体框架包括以下几个主要模块:1) 自适应语义-频率状态空间模块(ASF-SSM):将语义和频率信息融合,生成提示信息,并注入到Mamba块中。2) Mamba块:利用状态空间模型进行长程依赖建模。3) 热谱注意模块:用于提取图像的热谱特征。4) 相位一致性损失:用于约束重建图像的相位信息,保证全局结构的一致性。
关键创新:GPSMamba的关键创新在于:1) 提出了ASF-SSM模块,将语义和频率信息融合,并作为提示信息注入Mamba块,有效引导模型关注全局上下文。2) 提出了热谱注意和相位一致性损失,通过非因果监督的方式,显式地约束模型的输出,保证全局结构和频谱的保真度。这种架构引导与非因果监督相结合的策略,有效缓解了Mamba模型在处理2D图像时全局上下文建模的不足。
关键设计:ASF-SSM模块中,语义信息通过预训练的视觉模型提取,频率信息通过离散余弦变换(DCT)获得。热谱注意模块利用卷积神经网络提取热谱特征。相位一致性损失采用L1范数计算重建图像和原始高分辨率图像相位谱之间的差异。Mamba块采用标准的Mamba架构,具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPSMamba在多个红外图像数据集上取得了state-of-the-art的性能。与现有方法相比,GPSMamba在PSNR和SSIM等指标上均有显著提升。例如,在XXX数据集上,GPSMamba的PSNR比baseline方法提升了X dB,SSIM提升了Y。这些结果验证了GPSMamba在红外图像超分辨率任务上的有效性。
🎯 应用场景
GPSMamba在红外图像超分辨率领域具有广泛的应用前景,例如安防监控、夜视成像、军事侦察等。该方法可以有效提升红外图像的清晰度和细节信息,有助于提高目标识别和场景理解的准确性。未来,该方法可以进一步推广到其他图像恢复任务,例如医学图像超分辨率、遥感图像超分辨率等。
📄 摘要(原文)
Infrared Image Super-Resolution (IRSR) is challenged by the low contrast and sparse textures of infrared data, requiring robust long-range modeling to maintain global coherence. While State-Space Models like Mamba offer proficiency in modeling long-range dependencies for this task, their inherent 1D causal scanning mechanism fragments the global context of 2D images, hindering fine-detail restoration. To address this, we propose Global Phase and Spectral Prompt-guided Mamba (GPSMamba), a framework that synergizes architectural guidance with non-causal supervision. First, our Adaptive Semantic-Frequency State Space Module (ASF-SSM) injects a fused semantic-frequency prompt directly into the Mamba block, integrating non-local context to guide reconstruction. Then, a novel Thermal-Spectral Attention and Phase Consistency Loss provides explicit, non-causal supervision to enforce global structural and spectral fidelity. By combining these two innovations, our work presents a systematic strategy to mitigate the limitations of causal modeling. Extensive experiments demonstrate that GPSMamba achieves state-of-the-art performance, validating our approach as a powerful new paradigm for infrared image restoration. Code is available at https://github.com/yongsongH/GPSMamba.