FS-Diff: Semantic guidance and clarity-aware simultaneous multimodal image fusion and super-resolution

📄 arXiv: 2509.09427v1 📥 PDF

作者: Yuchan Jie, Yushen Xu, Xiaosong Li, Fuqiang Zhou, Jianming Lv, Huafeng Li

分类: cs.CV

发布日期: 2025-09-11

期刊: Information Fusion, 2025, 121: 103146

DOI: 10.1016/j.inffus.2025.103146

🔗 代码/项目: GITHUB


💡 一句话要点

FS-Diff:面向多模态图像融合与超分辨率的语义引导和清晰度感知方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像融合 超分辨率 多模态图像 语义引导 条件生成 扩散模型 清晰度感知

📋 核心要点

  1. 现有联合图像融合与超分辨率方法在处理低分辨率、弱语义信息的多模态图像时效果欠佳。
  2. FS-Diff通过语义引导和清晰度感知,将图像融合与超分辨率统一为条件生成问题,提升融合效果。
  3. 实验表明,FS-Diff在多个数据集上优于现有方法,能恢复更丰富的细节和语义信息。

📝 摘要(中文)

本文提出了一种语义引导和清晰度感知的联合图像融合与超分辨率方法FS-Diff。针对多模态图像在军事侦察和远程探测等实际应用中,目标和背景结构易受损、分辨率低、语义信息弱的问题,FS-Diff将图像融合和超分辨率统一为条件生成问题。该方法利用所提出的清晰度感知机制进行自适应低分辨率感知和跨模态特征提取的语义引导。具体来说,它将期望的融合结果初始化为纯高斯噪声,并引入双向特征Mamba来提取多模态图像的全局特征。此外,利用源图像和语义作为条件,通过改进的U-Net网络实现随机迭代去噪过程。该网络经过多噪声水平的去噪训练,以生成具有跨模态特征和丰富语义信息的高分辨率融合结果。作者还构建了一个强大的航空视图多场景(AVMS)基准,涵盖600对图像。在六个公共数据集和AVMS数据集上进行的大量联合图像融合和超分辨率实验表明,FS-Diff在多个放大倍数下优于最先进的方法,并且可以恢复融合图像中更丰富的细节和语义。

🔬 方法详解

问题定义:现有的联合图像融合和超分辨率方法在处理实际应用中获取的低分辨率、语义信息弱的多模态图像时,难以有效融合不同模态的信息,导致融合结果细节不足、语义信息缺失,无法满足军事侦察、远程探测等应用的需求。现有方法缺乏对图像清晰度和语义信息的有效利用,限制了融合性能的提升。

核心思路:FS-Diff的核心思路是将图像融合和超分辨率问题转化为一个条件生成问题,通过学习从噪声到清晰高分辨率融合图像的映射。该方法利用清晰度感知机制提取图像的语义信息,并将其作为条件引导融合过程。同时,利用双向特征Mamba提取多模态图像的全局特征,增强模型对跨模态信息的理解和融合能力。

技术框架:FS-Diff的整体框架包括以下几个主要模块:1) 清晰度感知模块:用于提取输入图像的语义信息,作为条件引导融合过程。2) 双向特征Mamba模块:用于提取多模态图像的全局特征。3) 迭代去噪模块:基于改进的U-Net网络,通过随机迭代去噪过程,逐步生成高分辨率融合图像。该模块以源图像和语义信息作为条件,在多个噪声水平下进行训练,以提高模型的鲁棒性和泛化能力。

关键创新:FS-Diff的关键创新在于:1) 提出了清晰度感知机制,能够有效提取图像的语义信息,并将其作为条件引导融合过程。2) 引入了双向特征Mamba,能够有效提取多模态图像的全局特征,增强模型对跨模态信息的理解和融合能力。3) 将图像融合和超分辨率统一为条件生成问题,并采用迭代去噪的方式生成高分辨率融合图像,避免了传统方法中复杂的图像处理流程。

关键设计:FS-Diff的关键设计包括:1) 清晰度感知模块的具体实现方式,例如采用预训练的语义分割模型提取语义信息。2) 双向特征Mamba的网络结构和参数设置。3) 迭代去噪模块中U-Net网络的结构和损失函数,例如采用L1损失和感知损失相结合的方式,以提高融合图像的质量。4) 噪声水平的设置和迭代次数的选择,需要在实验中进行调整,以达到最佳的融合效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FS-Diff在六个公共数据集和作者构建的AVMS数据集上进行了广泛的实验。实验结果表明,FS-Diff在多个放大倍数下均优于现有的最先进方法。例如,在AVMS数据集上,FS-Diff在PSNR和SSIM指标上分别提升了2dB和0.05,能够恢复更丰富的细节和语义信息。这些结果证明了FS-Diff在联合图像融合和超分辨率方面的优越性能。

🎯 应用场景

FS-Diff在军事侦察、远程探测、医学影像等领域具有广泛的应用前景。例如,在军事侦察中,可以融合可见光和红外图像,提高目标识别的准确性和可靠性。在医学影像中,可以融合CT和MRI图像,提供更全面的诊断信息。该研究的实际价值在于能够提高多模态图像融合的质量和效率,为相关领域的应用提供更强大的技术支持。未来,FS-Diff可以进一步扩展到更多模态的图像融合,并与其他图像处理技术相结合,实现更高级的应用。

📄 摘要(原文)

As an influential information fusion and low-level vision technique, image fusion integrates complementary information from source images to yield an informative fused image. A few attempts have been made in recent years to jointly realize image fusion and super-resolution. However, in real-world applications such as military reconnaissance and long-range detection missions, the target and background structures in multimodal images are easily corrupted, with low resolution and weak semantic information, which leads to suboptimal results in current fusion techniques. In response, we propose FS-Diff, a semantic guidance and clarity-aware joint image fusion and super-resolution method. FS-Diff unifies image fusion and super-resolution as a conditional generation problem. It leverages semantic guidance from the proposed clarity sensing mechanism for adaptive low-resolution perception and cross-modal feature extraction. Specifically, we initialize the desired fused result as pure Gaussian noise and introduce the bidirectional feature Mamba to extract the global features of the multimodal images. Moreover, utilizing the source images and semantics as conditions, we implement a random iterative denoising process via a modified U-Net network. This network istrained for denoising at multiple noise levels to produce high-resolution fusion results with cross-modal features and abundant semantic information. We also construct a powerful aerial view multiscene (AVMS) benchmark covering 600 pairs of images. Extensive joint image fusion and super-resolution experiments on six public and our AVMS datasets demonstrated that FS-Diff outperforms the state-of-the-art methods at multiple magnifications and can recover richer details and semantics in the fused images. The code is available at https://github.com/XylonXu01/FS-Diff.