Self-supervised Multiplex Consensus Mamba for General Image Fusion
作者: Yingying Wang, Rongjin Zhuang, Hui Zheng, Xuanhua He, Ke Cao, Xiaotong Tu, Xinghao Ding
分类: cs.CV
发布日期: 2025-12-24
备注: Accepted by AAAI 2026, 9 pages, 4 figures
💡 一句话要点
提出SMC-Mamba框架,用于通用图像融合,提升多种融合任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像融合 自监督学习 Mamba 跨模态融合 对比学习
📋 核心要点
- 现有图像融合方法侧重于特定任务,泛化能力和效率存在挑战。
- SMC-Mamba框架通过模态无关特征增强和多路共识跨模态Mamba模块,实现高效信息融合。
- 实验表明,该方法在多种图像融合任务和下游视觉任务中均优于现有方法。
📝 摘要(中文)
图像融合旨在整合来自不同模态的互补信息,生成高质量的融合图像,从而增强诸如目标检测和语义分割等下游任务。与主要关注整合模态间信息的特定任务技术不同,通用图像融合需要在不增加复杂性的前提下,解决广泛的任务并提高性能。为此,我们提出了一种用于通用图像融合的自监督多路共识Mamba框架,即SMC-Mamba。具体而言,模态无关特征增强(MAFE)模块通过自适应门控保留精细细节,并通过空间-通道和频率-旋转扫描增强全局表示。多路共识跨模态Mamba(MCCM)模块实现了专家之间的动态协作,达成共识以有效地整合来自多个模态的互补信息。MCCM中的跨模态扫描进一步加强了跨模态的特征交互,促进了来自两个来源的关键信息的无缝集成。此外,我们引入了一种双层自监督对比学习损失(BSCL),它在不增加计算开销的情况下保留了高频信息,同时提高了下游任务的性能。大量实验表明,我们的方法在红外-可见光、医学、多焦点和多曝光融合等任务以及下游视觉任务中,优于最先进的(SOTA)图像融合算法。
🔬 方法详解
问题定义:现有图像融合方法通常针对特定任务设计,难以泛化到多种融合任务中。此外,如何在不增加计算复杂度的前提下,有效整合来自不同模态的互补信息,并提升下游任务性能,是一个挑战。
核心思路:论文的核心思路是设计一个通用的图像融合框架,该框架能够自适应地处理来自不同模态的信息,并通过多路共识机制实现高效的信息融合。通过引入Mamba结构,增强模型对全局信息的建模能力,并利用自监督对比学习损失,提升模型的泛化性能。
技术框架:SMC-Mamba框架主要包含三个模块:模态无关特征增强(MAFE)模块、多路共识跨模态Mamba(MCCM)模块和双层自监督对比学习损失(BSCL)。MAFE模块用于提取和增强来自不同模态的特征。MCCM模块通过动态协作和跨模态扫描,实现信息的有效融合。BSCL用于提升模型的泛化能力和下游任务性能。
关键创新:论文的关键创新在于以下几点:1) 提出了模态无关特征增强模块,能够自适应地处理来自不同模态的信息;2) 引入了多路共识跨模态Mamba模块,通过动态协作和跨模态扫描,实现高效的信息融合;3) 设计了双层自监督对比学习损失,提升模型的泛化能力和下游任务性能。与现有方法相比,SMC-Mamba框架更加通用和高效。
关键设计:MAFE模块采用自适应门控机制,保留精细细节,并通过空间-通道和频率-旋转扫描增强全局表示。MCCM模块利用Mamba结构进行跨模态特征交互。BSCL损失函数包含实例级别和语义级别的对比学习,以保留高频信息并提升下游任务性能。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SMC-Mamba在红外-可见光、医学、多焦点和多曝光融合等任务中均取得了优于SOTA算法的性能。例如,在红外-可见光图像融合任务中,SMC-Mamba在多个指标上均有显著提升,尤其是在视觉质量和信息保留方面。此外,该方法在下游视觉任务中也表现出良好的性能。
🎯 应用场景
该研究成果可广泛应用于医学图像融合、遥感图像融合、红外与可见光图像融合等领域。通过提升图像融合的质量和效率,可以改善下游任务的性能,例如目标检测、图像分割和图像识别等。该研究对于提升人工智能在图像处理领域的应用具有重要意义。
📄 摘要(原文)
Image fusion integrates complementary information from different modalities to generate high-quality fused images, thereby enhancing downstream tasks such as object detection and semantic segmentation. Unlike task-specific techniques that primarily focus on consolidating inter-modal information, general image fusion needs to address a wide range of tasks while improving performance without increasing complexity. To achieve this, we propose SMC-Mamba, a Self-supervised Multiplex Consensus Mamba framework for general image fusion. Specifically, the Modality-Agnostic Feature Enhancement (MAFE) module preserves fine details through adaptive gating and enhances global representations via spatial-channel and frequency-rotational scanning. The Multiplex Consensus Cross-modal Mamba (MCCM) module enables dynamic collaboration among experts, reaching a consensus to efficiently integrate complementary information from multiple modalities. The cross-modal scanning within MCCM further strengthens feature interactions across modalities, facilitating seamless integration of critical information from both sources. Additionally, we introduce a Bi-level Self-supervised Contrastive Learning Loss (BSCL), which preserves high-frequency information without increasing computational overhead while simultaneously boosting performance in downstream tasks. Extensive experiments demonstrate that our approach outperforms state-of-the-art (SOTA) image fusion algorithms in tasks such as infrared-visible, medical, multi-focus, and multi-exposure fusion, as well as downstream visual tasks.