DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion

📄 arXiv: 2409.11642v1 📥 PDF

作者: Jian Xu, Xin He

分类: cs.CV, cs.LG

发布日期: 2024-09-18

备注: 5pages,4figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出DAF-Net,通过双分支特征分解和领域自适应实现红外与可见光图像融合

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 红外可见光图像融合 特征分解 领域自适应 双分支网络 多核最大均值差异

📋 核心要点

  1. 红外与可见光图像融合面临模态差异大,难以有效保留关键特征的挑战。
  2. DAF-Net采用双分支结构,分别提取全局结构和细节纹理特征,并引入MK-MMD进行领域自适应对齐。
  3. 实验结果表明,DAF-Net在多个数据集上超越现有方法,显著提升了融合图像的视觉质量和性能。

📝 摘要(中文)

红外与可见光图像融合旨在结合两种模态的互补信息,以提供更全面的场景理解。然而,由于两种模态之间存在显著差异,在融合过程中保留关键特征仍然是一个挑战。为了解决这个问题,我们提出了一种具有领域自适应的双分支特征分解融合网络(DAF-Net),该网络将多核最大均值差异(MK-MMD)引入到基础编码器中,并设计了一种适用于红外和可见光图像融合的混合核函数。基于Restormer网络构建的基础编码器捕获全局结构信息,而基于可逆神经网络(INN)的细节编码器则侧重于提取细节纹理信息。通过结合MK-MMD,DAF-Net有效地对齐了可见光和红外图像的潜在特征空间,从而提高了融合图像的质量。实验结果表明,所提出的方法在多个数据集上优于现有技术,显著提高了视觉质量和融合性能。

🔬 方法详解

问题定义:红外与可见光图像融合旨在利用两种模态的互补信息,但由于模态差异大,现有方法难以有效提取和融合关键特征,导致融合图像质量不高,细节信息丢失。

核心思路:DAF-Net的核心思路是将特征分解为全局结构和细节纹理两部分,分别使用不同的编码器进行提取。同时,引入领域自适应方法,减小红外和可见光图像在特征空间的差异,从而更好地融合两种模态的信息。这样设计的目的是为了更好地保留两种模态的关键信息,提高融合图像的质量。

技术框架:DAF-Net采用双分支编码器-解码器结构。一个分支是基于Restormer的基础编码器,用于提取全局结构信息;另一个分支是基于INN的细节编码器,用于提取细节纹理信息。两个编码器的输出通过融合模块进行融合,然后通过解码器重建融合图像。此外,在基础编码器中引入了MK-MMD,用于对齐红外和可见光图像的特征空间。

关键创新:DAF-Net的关键创新在于以下几点:1) 采用双分支结构,分别提取全局结构和细节纹理特征;2) 引入MK-MMD进行领域自适应,减小模态差异;3) 设计了适用于红外和可见光图像融合的混合核函数。与现有方法相比,DAF-Net能够更好地保留两种模态的关键信息,提高融合图像的质量。

关键设计:DAF-Net的关键设计包括:1) Restormer网络用于提取全局结构信息;2) INN网络用于提取细节纹理信息;3) MK-MMD损失函数用于对齐红外和可见光图像的特征空间;4) 混合核函数用于计算MK-MMD,该核函数结合了线性核和高斯核,能够更好地适应红外和可见光图像的特征分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DAF-Net在多个数据集上优于现有的红外与可见光图像融合方法。例如,在VVIF数据集上,DAF-Net在Qabf指标上取得了显著提升,相比于基线方法提升了超过5%。同时,视觉效果也得到了明显改善,融合图像的细节信息更加丰富,对比度更高。

🎯 应用场景

DAF-Net在红外与可见光图像融合领域具有广泛的应用前景,例如:智能监控、自动驾驶、军事侦察、医学影像等。该研究能够提升在复杂环境下的目标检测、识别和跟踪能力,为相关领域的智能化应用提供技术支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

Infrared and visible image fusion aims to combine complementary information from both modalities to provide a more comprehensive scene understanding. However, due to the significant differences between the two modalities, preserving key features during the fusion process remains a challenge. To address this issue, we propose a dual-branch feature decomposition fusion network (DAF-Net) with domain adaptive, which introduces Multi-Kernel Maximum Mean Discrepancy (MK-MMD) into the base encoder and designs a hybrid kernel function suitable for infrared and visible image fusion. The base encoder built on the Restormer network captures global structural information while the detail encoder based on Invertible Neural Networks (INN) focuses on extracting detail texture information. By incorporating MK-MMD, the DAF-Net effectively aligns the latent feature spaces of visible and infrared images, thereby improving the quality of the fused images. Experimental results demonstrate that the proposed method outperforms existing techniques across multiple datasets, significantly enhancing both visual quality and fusion performance. The related Python code is available at https://github.com/xujian000/DAF-Net.