Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion

📄 arXiv: 2411.11799v1 📥 PDF

作者: Meng Zhou, Yuxuan Zhang, Xiaolan Xu, Jiayi Wang, Farzad Khalvati

分类: eess.IV, cs.AI, cs.CV

发布日期: 2024-11-18

备注: An extended version of the paper accepted at IEEE BIBM 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出边缘增强的空洞残差注意力网络,用于多模态医学图像融合。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态医学图像融合 空洞卷积 残差网络 注意力机制 边缘增强 深度学习 脑肿瘤分类

📋 核心要点

  1. 现有CNN方法在多模态医学图像融合中难以有效提取细粒度多尺度和边缘特征,Transformer方法计算成本高昂。
  2. 提出一种基于CNN的边缘增强空洞残差注意力网络,利用空洞卷积和注意力机制提取多尺度特征,梯度算子增强边缘细节。
  3. 实验表明,该方法在视觉质量、纹理保持和融合速度方面优于现有方法,并在脑肿瘤分类任务中表现出色。

📝 摘要(中文)

多模态医学图像融合是一项关键任务,它将来自不同成像模式的互补信息组合成统一的表示,从而提高诊断准确性和治疗计划的制定。虽然深度学习方法,特别是卷积神经网络(CNN)和Transformer,已经显著提高了融合性能,但一些现有的基于CNN的方法在捕获细粒度的多尺度和边缘特征方面存在不足,导致次优的特征集成。另一方面,基于Transformer的模型在训练和融合阶段的计算量都很大,使其不适用于实时临床使用。此外,融合图像的临床应用仍有待探索。在本文中,我们提出了一种新的基于CNN的架构,通过引入用于有效多尺度特征提取的空洞残差注意力网络模块,以及用于增强边缘细节学习的梯度算子,来解决这些限制。为了确保快速高效的融合,我们提出了一种基于softmax加权核范数的无参数融合策略,该策略在训练或推理期间不需要额外的计算。大量的实验,包括下游脑肿瘤分类任务,表明我们的方法在视觉质量、纹理保持和融合速度方面优于各种基线方法,使其成为现实世界临床应用中可能的实用解决方案。代码将在https://github.com/simonZhou86/en_dran发布。

🔬 方法详解

问题定义:多模态医学图像融合旨在整合来自不同成像方式(如MRI、CT、PET等)的信息,以提供更全面、准确的诊断依据。现有基于CNN的方法难以同时捕捉图像的多尺度特征和精细边缘信息,导致融合效果不佳。Transformer虽然能捕捉全局信息,但计算复杂度高,难以满足临床实时性需求。

核心思路:本论文的核心思路是设计一种高效的CNN架构,既能提取多尺度特征,又能增强边缘细节,同时保持较低的计算复杂度。通过引入空洞卷积扩大感受野,利用残差连接缓解梯度消失,并结合注意力机制自适应地调整特征权重,从而实现更有效的特征融合。梯度算子用于显式地增强边缘信息,弥补CNN在边缘提取方面的不足。

技术框架:整体框架包含特征提取、特征融合和图像重建三个主要阶段。特征提取阶段,使用提出的边缘增强空洞残差注意力网络(Edge-Enhanced Dilated Residual Attention Network, EN-DRAN)模块分别从不同模态的医学图像中提取特征。特征融合阶段,采用基于softmax加权核范数的无参数融合策略,将提取的特征进行融合。图像重建阶段,将融合后的特征重建为最终的融合图像。

关键创新:该论文的关键创新在于EN-DRAN模块的设计,它结合了空洞卷积、残差连接、注意力机制和梯度算子。空洞卷积允许网络在不增加参数的情况下扩大感受野,捕捉多尺度信息。残差连接有助于缓解深度网络中的梯度消失问题。注意力机制能够自适应地调整不同特征的重要性。梯度算子显式地增强了边缘信息,提高了融合图像的清晰度。与现有方法相比,该方法在特征提取方面更加全面和有效。

关键设计:EN-DRAN模块中,空洞卷积的空洞率(dilation rate)根据网络深度进行调整,以捕捉不同尺度的特征。注意力机制采用通道注意力,通过学习每个通道的权重来增强重要特征。梯度算子采用Sobel算子,用于提取图像的水平和垂直方向的梯度。无参数融合策略基于softmax加权核范数,避免了额外的训练和参数调整,提高了融合效率。损失函数采用L1损失和结构相似性损失(SSIM)的加权组合,以保证融合图像的视觉质量和结构相似性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在视觉质量(通过主观评价和客观指标如Qabf、Nabf等衡量)、纹理保持和融合速度方面均优于现有方法。在下游脑肿瘤分类任务中,该方法也取得了显著的性能提升,证明了其在实际应用中的有效性。与基线方法相比,该方法在融合速度上具有明显优势,更适合临床实时应用。

🎯 应用场景

该研究成果可应用于多种医学影像诊断场景,例如脑肿瘤检测、病灶分割、疾病诊断等。通过融合不同模态的医学图像,医生可以获得更全面、准确的病灶信息,从而提高诊断准确性和治疗效果。该方法具有融合速度快、计算成本低的优点,有望在临床实践中得到广泛应用,并为未来的医学影像分析提供新的思路。

📄 摘要(原文)

Multimodal medical image fusion is a crucial task that combines complementary information from different imaging modalities into a unified representation, thereby enhancing diagnostic accuracy and treatment planning. While deep learning methods, particularly Convolutional Neural Networks (CNNs) and Transformers, have significantly advanced fusion performance, some of the existing CNN-based methods fall short in capturing fine-grained multiscale and edge features, leading to suboptimal feature integration. Transformer-based models, on the other hand, are computationally intensive in both the training and fusion stages, making them impractical for real-time clinical use. Moreover, the clinical application of fused images remains unexplored. In this paper, we propose a novel CNN-based architecture that addresses these limitations by introducing a Dilated Residual Attention Network Module for effective multiscale feature extraction, coupled with a gradient operator to enhance edge detail learning. To ensure fast and efficient fusion, we present a parameter-free fusion strategy based on the weighted nuclear norm of softmax, which requires no additional computations during training or inference. Extensive experiments, including a downstream brain tumor classification task, demonstrate that our approach outperforms various baseline methods in terms of visual quality, texture preservation, and fusion speed, making it a possible practical solution for real-world clinical applications. The code will be released at https://github.com/simonZhou86/en_dran.