S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion
作者: Haolong Ma, Hui Li, Chunyang Cheng, Gaoang Wang, Xiaoning Song, Xiaojun Wu
分类: cs.CV
发布日期: 2024-05-31 (更新: 2025-06-23)
💡 一句话要点
提出S4Fusion,利用显著性感知选择性状态空间模型实现红外与可见光图像融合
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 红外可见光图像融合 选择性状态空间模型 显著性感知 跨模态融合 全局空间信息
📋 核心要点
- 现有红外与可见光图像融合方法未能充分利用SSSM捕获全局空间信息的能力,导致融合结果易偏向单一模态。
- S4Fusion通过跨模态空间感知模块(CMSA)同时关注两种模态的全局空间信息,并利用预训练网络感知并最小化融合图像的不确定性。
- 实验结果表明,S4Fusion能够生成高质量的融合图像,并在下游任务中表现出优异的性能。
📝 摘要(中文)
红外与可见光图像融合旨在将不同模态传感器捕获的互补信息整合到单一图像中。选择性状态空间模型(SSSM)因其捕获长程依赖关系的能力,在计算机视觉领域展现出潜力。然而,现有图像融合方法低估了SSSM在捕获两种模态全局空间信息方面的潜力,导致无法在交互过程中同时考虑全局空间信息,缺乏对显著目标的全面感知。因此,融合结果倾向于偏向一种模态,而不是自适应地保留显著目标。为解决此问题,我们提出了显著性感知选择性状态空间融合模型(S4Fusion)。S4Fusion中设计的跨模态空间感知模块(CMSA)可以同时关注来自两种模态的全局空间信息,并促进它们的交互,从而全面捕获互补信息。此外,S4Fusion利用预训练网络来感知融合图像中的不确定性。通过最小化这种不确定性,S4Fusion自适应地突出显示来自两个图像的显著目标。大量实验表明,我们的方法可以生成高质量的图像,并提高下游任务的性能。
🔬 方法详解
问题定义:论文旨在解决红外与可见光图像融合中,现有方法无法充分利用全局空间信息,导致融合结果偏向单一模态,无法自适应地保留显著目标的问题。现有方法在利用选择性状态空间模型(SSSM)时,未能有效捕捉两种模态的全局空间信息,从而限制了融合效果。
核心思路:论文的核心思路是引入显著性感知机制,并结合选择性状态空间模型(SSSM),使模型能够同时关注两种模态的全局空间信息,并自适应地突出显示显著目标。通过跨模态空间感知模块(CMSA)实现模态间的有效交互,并利用预训练网络感知融合图像的不确定性,从而指导模型更好地融合信息。
技术框架:S4Fusion的整体框架包含以下几个主要模块:首先,输入红外和可见光图像;然后,通过跨模态空间感知模块(CMSA)提取并融合两种模态的全局空间信息;接着,利用预训练网络评估融合图像的不确定性;最后,通过优化目标函数,自适应地突出显示显著目标,生成最终的融合图像。
关键创新:论文的关键创新在于提出了跨模态空间感知模块(CMSA),该模块能够同时关注来自两种模态的全局空间信息,并促进它们的交互,从而全面捕获互补信息。此外,利用预训练网络感知融合图像的不确定性,并将其作为优化目标的一部分,使得模型能够自适应地突出显示显著目标。这与现有方法中简单地融合特征或依赖手工设计的融合规则有本质区别。
关键设计:CMSA模块的具体实现细节未知,但其核心功能是提取和融合两种模态的全局空间信息。预训练网络的选择和训练方式未知,但其目标是准确评估融合图像的不确定性。损失函数的设计未知,但其目标是最小化融合图像的不确定性,并自适应地突出显示显著目标。这些设计细节共同保证了S4Fusion能够生成高质量的融合图像。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了S4Fusion的有效性。实验结果表明,S4Fusion能够生成高质量的融合图像,并在下游任务中表现出优异的性能。具体的性能数据和对比基线未知,但论文强调S4Fusion在自适应地保留显著目标方面优于现有方法,并能有效提高下游任务的性能。
🎯 应用场景
该研究成果可应用于多种场景,如智能安防、自动驾驶、目标检测、医学图像分析等。通过融合红外和可见光图像,可以提高目标识别的准确性和鲁棒性,尤其是在光照条件不佳或存在遮挡的情况下。该技术具有重要的实际应用价值,并有望推动相关领域的发展。
📄 摘要(原文)
As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.