Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion

作者: Yixin Zhu, Long Lv, Pingping Zhang, Xuehu Liu, Tongdan Tang, Feng Tian, Weibing Sun, Huchuan Lu

分类: cs.CV, cs.MM

发布日期: 2026-02-04

备注: This work is accepted by IEEE Transactions on Image Processing. More modifications may be performed

🔗 代码/项目: GITHUB

💡 一句话要点

提出交互式空频融合Mamba网络，用于多模态图像融合，提升信息互补性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多模态图像融合 空频融合 Mamba 长程依赖 特征提取

📋 核心要点

现有MMIF方法在融合空间和频率信息时，缺乏有效的交互机制，限制了特征互补性的发挥。
论文提出交互式空频融合Mamba（ISFM）框架，通过模态特定提取、多尺度频率融合和交互式空频融合，增强特征表示。
在六个MMIF数据集上的实验表明，ISFM优于现有方法，证明了其在多模态图像融合方面的有效性。

📝 摘要（中文）

多模态图像融合（MMIF）旨在结合来自不同模态的图像，生成融合图像，保留纹理细节并保持重要信息。最近，一些MMIF方法结合频域信息来增强空间特征。然而，这些方法通常依赖于简单的串行或并行空频融合，缺乏交互。本文提出了一种新颖的交互式空频融合Mamba（ISFM）框架用于MMIF。具体而言，我们首先使用模态特定提取器（MSE）从不同模态提取特征，它以线性计算复杂度对图像中的长程依赖关系进行建模。为了有效地利用频率信息，我们提出了多尺度频率融合（MFF），它自适应地整合跨多个尺度的低频和高频分量，从而实现频率特征的鲁棒表示。更重要的是，我们进一步提出了交互式空频融合（ISF），它结合频率特征来引导跨模态的空间特征，增强互补表示。在六个MMIF数据集上进行了大量实验。实验结果表明，我们的ISFM可以实现比其他最先进方法更好的性能。

🔬 方法详解

问题定义：多模态图像融合旨在将来自不同模态的图像信息进行有效整合，生成包含更全面信息的融合图像。现有方法在处理空域和频域信息时，通常采用简单的串行或并行方式，忽略了两者之间的深度交互，导致信息互补性不足，融合效果受限。尤其是在复杂场景下，如何充分利用不同模态的互补信息是一个挑战。

核心思路：论文的核心思路是通过交互式的方式，将频域信息融入到空域特征中，利用频域信息引导空域特征的学习，从而增强特征的互补性和表达能力。同时，采用Mamba架构来建模长程依赖关系，提升模型的全局感知能力。这种交互式融合的设计旨在克服传统方法中空域和频域信息孤立的问题。

技术框架：ISFM框架主要包含三个核心模块：模态特定提取器（MSE）、多尺度频率融合（MFF）和交互式空频融合（ISF）。首先，MSE用于从不同模态的图像中提取特征，利用Mamba结构建模长程依赖。然后，MFF对提取的特征进行多尺度频率分解，并自适应地融合不同尺度的频率分量。最后，ISF模块将频率特征与空间特征进行交互融合，增强特征的互补表示。整个流程旨在充分利用不同模态和不同频率的信息，提升融合效果。

关键创新：论文的关键创新在于提出了交互式空频融合（ISF）模块。与传统的串行或并行融合方式不同，ISF模块通过将频率特征作为引导信息，动态地调整空间特征的表示，从而实现更有效的特征融合。此外，采用Mamba架构作为基础特征提取器，能够以线性复杂度建模长程依赖关系，提升模型的全局感知能力。

关键设计：MSE采用Mamba架构，通过选择性状态空间模型建模长程依赖关系。MFF模块采用多尺度分解，并使用自适应权重融合不同尺度的频率分量。ISF模块的具体实现细节未知，但其核心思想是利用频率特征引导空间特征的学习。损失函数和具体的网络参数设置在论文中可能有所描述，但此处信息不足，无法详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ISFM在六个MMIF数据集上均取得了优于现有SOTA方法的性能。具体的性能指标提升幅度未知，但论文强调ISFM能够更好地保留纹理细节和保持重要信息，证明了其在多模态图像融合方面的有效性。开源代码的提供也方便了其他研究者进行复现和进一步研究。

🎯 应用场景

该研究成果可广泛应用于医学图像融合（如CT与MRI融合）、遥感图像融合（如可见光与红外图像融合）等领域。通过提升多模态图像融合的质量，可以辅助医生进行更准确的诊断，提高遥感图像的解译精度，具有重要的实际应用价值和潜在的社会经济效益。未来，该技术有望应用于自动驾驶、机器人视觉等更广泛的领域。

📄 摘要（原文）

Multi-Modal Image Fusion (MMIF) aims to combine images from different modalities to produce fused images, retaining texture details and preserving significant information. Recently, some MMIF methods incorporate frequency domain information to enhance spatial features. However, these methods typically rely on simple serial or parallel spatial-frequency fusion without interaction. In this paper, we propose a novel Interactive Spatial-Frequency Fusion Mamba (ISFM) framework for MMIF. Specifically, we begin with a Modality-Specific Extractor (MSE) to extract features from different modalities. It models long-range dependencies across the image with linear computational complexity. To effectively leverage frequency information, we then propose a Multi-scale Frequency Fusion (MFF). It adaptively integrates low-frequency and high-frequency components across multiple scales, enabling robust representations of frequency features. More importantly, we further propose an Interactive Spatial-Frequency Fusion (ISF). It incorporates frequency features to guide spatial features across modalities, enhancing complementary representations. Extensive experiments are conducted on six MMIF datasets. The experimental results demonstrate that our ISFM can achieve better performances than other state-of-the-art methods. The source code is available at https://github.com/Namn23/ISFM.

Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理