SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis

作者: Haozhe Xiang, Han Zhang, Yu Cheng, Xiongwen Quan, Wanwan Huang

分类: cs.CV

发布日期: 2025-05-18

💡 一句话要点

提出SMFusion，利用语义信息融合多模态医学图像以提升临床诊断。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态医学图像融合 语义引导 医学先验知识 文本注入 交叉注意力

📋 核心要点

现有医学图像融合方法侧重于计算机视觉标准，忽略了医学图像固有的丰富语义信息。
SMFusion通过构建多模态医学图像-文本数据集，将医学先验知识融入融合过程，实现语义引导的图像融合。
实验结果表明，该方法在定性和定量评估中均表现出色，并能更好地保留关键医学信息。

📝 摘要（中文）

多模态医学图像融合在医学诊断中起着至关重要的作用，它通过整合来自不同模态的互补信息来增强图像的可读性和临床适用性。然而，现有方法主要遵循计算机视觉标准进行特征提取和融合策略制定，忽略了医学图像中固有的丰富语义信息。为了解决这一局限性，我们提出了一种新颖的语义引导医学图像融合方法，首次将医学先验知识融入融合过程。具体而言，我们构建了一个公开的多模态医学图像-文本数据集，在此基础上，BiomedGPT生成的文本描述被编码，并通过语义交互对齐模块在高维空间中与图像特征进行语义对齐。在此过程中，基于交叉注意力的线性变换自动映射文本和视觉特征之间的关系，以促进全面学习。对齐后的特征被嵌入到文本注入模块中，以进行进一步的特征级融合。与传统方法不同，我们进一步从融合图像生成诊断报告，以评估医学信息的保留情况。此外，我们设计了一种医学语义损失函数，以增强源图像中文本线索的保留。在测试数据集上的实验结果表明，所提出的方法在定性和定量评估中均取得了优异的性能，同时保留了更多关键的医学信息。

🔬 方法详解

问题定义：现有医学图像融合方法主要依赖计算机视觉领域的通用特征提取和融合策略，忽略了医学图像中蕴含的丰富语义信息，导致融合后的图像可能丢失重要的医学诊断线索，影响临床应用。这些方法缺乏对医学知识的有效利用，无法充分发挥多模态图像的互补优势。

核心思路：SMFusion的核心思路是将医学先验知识融入到多模态医学图像融合过程中，通过语义引导的方式，使融合后的图像能够更好地保留和突出重要的医学信息。具体来说，该方法利用医学图像的文本描述作为语义信息，通过语义对齐和文本注入等手段，将文本信息融入到图像特征中，从而提高融合图像的质量和临床诊断价值。

技术框架：SMFusion的整体框架包括以下几个主要模块：1) 多模态医学图像-文本数据集构建：构建包含多模态医学图像及其对应文本描述的数据集，为后续的语义对齐和融合提供基础。2) 特征提取：分别提取多模态医学图像的视觉特征和文本描述的语义特征。3) 语义交互对齐模块：利用交叉注意力机制，将文本特征和图像特征在高维空间中进行语义对齐，建立文本和视觉特征之间的关联。4) 文本注入模块：将对齐后的文本特征注入到图像特征中，实现特征级的融合。5) 诊断报告生成：从融合后的图像生成诊断报告，用于评估医学信息的保留情况。6) 医学语义损失函数：设计医学语义损失函数，用于增强源图像中文本线索的保留。

关键创新：SMFusion最关键的创新点在于首次将医学先验知识（通过文本描述体现）融入到多模态医学图像融合过程中。与传统方法相比，SMFusion能够更好地利用医学图像的语义信息，从而提高融合图像的质量和临床诊断价值。此外，该方法还提出了语义交互对齐模块和文本注入模块，用于实现文本和视觉特征的有效融合。

关键设计：语义交互对齐模块采用基于交叉注意力的线性变换，自动学习文本和视觉特征之间的关系。医学语义损失函数的设计旨在增强源图像中文本线索的保留，具体形式未知（论文未详细说明）。BiomedGPT用于生成医学图像的文本描述，具体prompt工程和模型参数未知。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了SMFusion在多模态医学图像融合任务上的优越性。实验结果表明，SMFusion在定性和定量评估中均取得了优异的性能，能够更好地保留关键的医学信息。具体的性能数据和对比基线未知，但摘要强调了该方法在保留医学信息方面的优势。

🎯 应用场景

SMFusion可应用于多种医学影像诊断场景，例如肿瘤检测、脑部疾病诊断、心血管疾病评估等。通过融合CT、MRI、PET等不同模态的医学图像，并结合医学文本信息，可以为医生提供更全面、准确的诊断依据，提高诊断效率和准确性，减少误诊和漏诊的风险。该研究有望推动医学影像分析的智能化发展，提升医疗服务水平。

📄 摘要（原文）

Multimodal medical image fusion plays a crucial role in medical diagnosis by integrating complementary information from different modalities to enhance image readability and clinical applicability. However, existing methods mainly follow computer vision standards for feature extraction and fusion strategy formulation, overlooking the rich semantic information inherent in medical images. To address this limitation, we propose a novel semantic-guided medical image fusion approach that, for the first time, incorporates medical prior knowledge into the fusion process. Specifically, we construct a publicly available multimodal medical image-text dataset, upon which text descriptions generated by BiomedGPT are encoded and semantically aligned with image features in a high-dimensional space via a semantic interaction alignment module. During this process, a cross attention based linear transformation automatically maps the relationship between textual and visual features to facilitate comprehensive learning. The aligned features are then embedded into a text-injection module for further feature-level fusion. Unlike traditional methods, we further generate diagnostic reports from the fused images to assess the preservation of medical information. Additionally, we design a medical semantic loss function to enhance the retention of textual cues from the source images. Experimental results on test datasets demonstrate that the proposed method achieves superior performance in both qualitative and quantitative evaluations while preserving more critical medical information.

SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理