Self-supervised Multiplex Consensus Mamba for General Image Fusion

作者: Yingying Wang, Rongjin Zhuang, Hui Zheng, Xuanhua He, Ke Cao, Xiaotong Tu, Xinghao Ding

分类: cs.CV

发布日期: 2025-12-24

备注: Accepted by AAAI 2026, 9 pages, 4 figures

💡 一句话要点

提出SMC-Mamba框架，用于通用图像融合，提升多种融合任务性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像融合 自监督学习 Mamba 跨模态融合 对比学习

📋 核心要点

现有图像融合方法侧重于特定任务，泛化能力和效率存在挑战。
SMC-Mamba框架通过模态无关特征增强和多路共识跨模态Mamba模块，实现高效信息融合。
实验表明，该方法在多种图像融合任务和下游视觉任务中均优于现有方法。

📝 摘要（中文）

图像融合旨在整合来自不同模态的互补信息，生成高质量的融合图像，从而增强诸如目标检测和语义分割等下游任务。与主要关注整合模态间信息的特定任务技术不同，通用图像融合需要在不增加复杂性的前提下，解决广泛的任务并提高性能。为此，我们提出了一种用于通用图像融合的自监督多路共识Mamba框架，即SMC-Mamba。具体而言，模态无关特征增强（MAFE）模块通过自适应门控保留精细细节，并通过空间-通道和频率-旋转扫描增强全局表示。多路共识跨模态Mamba（MCCM）模块实现了专家之间的动态协作，达成共识以有效地整合来自多个模态的互补信息。MCCM中的跨模态扫描进一步加强了跨模态的特征交互，促进了来自两个来源的关键信息的无缝集成。此外，我们引入了一种双层自监督对比学习损失（BSCL），它在不增加计算开销的情况下保留了高频信息，同时提高了下游任务的性能。大量实验表明，我们的方法在红外-可见光、医学、多焦点和多曝光融合等任务以及下游视觉任务中，优于最先进的（SOTA）图像融合算法。

🔬 方法详解

问题定义：现有图像融合方法通常针对特定任务设计，难以泛化到多种融合任务中。此外，如何在不增加计算复杂度的前提下，有效整合来自不同模态的互补信息，并提升下游任务性能，是一个挑战。

核心思路：论文的核心思路是设计一个通用的图像融合框架，该框架能够自适应地处理来自不同模态的信息，并通过多路共识机制实现高效的信息融合。通过引入Mamba结构，增强模型对全局信息的建模能力，并利用自监督对比学习损失，提升模型的泛化性能。

技术框架：SMC-Mamba框架主要包含三个模块：模态无关特征增强（MAFE）模块、多路共识跨模态Mamba（MCCM）模块和双层自监督对比学习损失（BSCL）。MAFE模块用于提取和增强来自不同模态的特征。MCCM模块通过动态协作和跨模态扫描，实现信息的有效融合。BSCL用于提升模型的泛化能力和下游任务性能。

关键创新：论文的关键创新在于以下几点：1) 提出了模态无关特征增强模块，能够自适应地处理来自不同模态的信息；2) 引入了多路共识跨模态Mamba模块，通过动态协作和跨模态扫描，实现高效的信息融合；3) 设计了双层自监督对比学习损失，提升模型的泛化能力和下游任务性能。与现有方法相比，SMC-Mamba框架更加通用和高效。

关键设计：MAFE模块采用自适应门控机制，保留精细细节，并通过空间-通道和频率-旋转扫描增强全局表示。MCCM模块利用Mamba结构进行跨模态特征交互。BSCL损失函数包含实例级别和语义级别的对比学习，以保留高频信息并提升下游任务性能。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SMC-Mamba在红外-可见光、医学、多焦点和多曝光融合等任务中均取得了优于SOTA算法的性能。例如，在红外-可见光图像融合任务中，SMC-Mamba在多个指标上均有显著提升，尤其是在视觉质量和信息保留方面。此外，该方法在下游视觉任务中也表现出良好的性能。

🎯 应用场景

该研究成果可广泛应用于医学图像融合、遥感图像融合、红外与可见光图像融合等领域。通过提升图像融合的质量和效率，可以改善下游任务的性能，例如目标检测、图像分割和图像识别等。该研究对于提升人工智能在图像处理领域的应用具有重要意义。

📄 摘要（原文）

Image fusion integrates complementary information from different modalities to generate high-quality fused images, thereby enhancing downstream tasks such as object detection and semantic segmentation. Unlike task-specific techniques that primarily focus on consolidating inter-modal information, general image fusion needs to address a wide range of tasks while improving performance without increasing complexity. To achieve this, we propose SMC-Mamba, a Self-supervised Multiplex Consensus Mamba framework for general image fusion. Specifically, the Modality-Agnostic Feature Enhancement (MAFE) module preserves fine details through adaptive gating and enhances global representations via spatial-channel and frequency-rotational scanning. The Multiplex Consensus Cross-modal Mamba (MCCM) module enables dynamic collaboration among experts, reaching a consensus to efficiently integrate complementary information from multiple modalities. The cross-modal scanning within MCCM further strengthens feature interactions across modalities, facilitating seamless integration of critical information from both sources. Additionally, we introduce a Bi-level Self-supervised Contrastive Learning Loss (BSCL), which preserves high-frequency information without increasing computational overhead while simultaneously boosting performance in downstream tasks. Extensive experiments demonstrate that our approach outperforms state-of-the-art (SOTA) image fusion algorithms in tasks such as infrared-visible, medical, multi-focus, and multi-exposure fusion, as well as downstream visual tasks.

Self-supervised Multiplex Consensus Mamba for General Image Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理