Cross-Attention Multimodal Fusion for Breast Cancer Diagnosis: Integrating Mammography and Clinical Data with Explainability

📄 arXiv: 2508.16000v1 📥 PDF

作者: Muhaisin Tiyumba Nantogmah, Abdul-Barik Alhassan, Salamudeen Alhassan

分类: eess.IV, cs.CV, cs.LG

发布日期: 2025-08-21

备注: 11 pages, 9 figures


💡 一句话要点

提出基于交叉注意力多模态融合的乳腺癌诊断方法,提升诊断精度与可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乳腺癌诊断 多模态融合 交叉注意力 深度学习 医学图像处理

📋 核心要点

  1. 现有乳腺癌诊断系统主要依赖乳腺钼靶图像,忽略了临床数据的潜在价值,限制了诊断精度。
  2. 该研究提出一种基于交叉注意力的多模态融合方法,有效整合乳腺钼靶图像和临床数据,提升诊断性能。
  3. 实验结果表明,该方法在公共数据集上取得了显著的性能提升,验证了其有效性和优越性。

📝 摘要(中文)

为了更精确地评估乳腺病变的风险,本研究提出了一种结合乳腺钼靶图像和临床数据的多模态深度学习方法。现有计算机辅助系统主要依赖乳腺钼靶图像特征,忽略了临床报告中的重要信息。本文旨在探讨临床特征是否能显著提升乳腺病变分类效果,以及如何有效融合临床特征和乳腺钼靶图像。此外,研究还探索了可解释AI方法在提高乳腺癌诊断模型可靠性方面的作用。研究对比了基于特征拼接、协同注意力和交叉注意力的多模态深度网络,实验结果表明,该模型在公共数据集(TCGA和CBIS-DDSM)上取得了优异的性能,AUC-ROC达到0.98,准确率达到0.96,F1-score为0.94,精确率为0.92,召回率为0.95。

🔬 方法详解

问题定义:现有乳腺癌诊断系统主要依赖乳腺钼靶图像,而忽略了临床报告中包含的丰富信息。这种单一模态的诊断方法可能无法充分利用所有可用信息,导致诊断精度受限。因此,如何有效地整合乳腺钼靶图像和临床数据,以提高乳腺癌诊断的准确性,是一个亟待解决的问题。

核心思路:本研究的核心思路是利用交叉注意力机制,实现乳腺钼靶图像特征和临床特征之间的有效融合。交叉注意力机制能够学习不同模态特征之间的关联性,从而更好地利用多模态信息进行诊断。通过这种方式,模型可以同时关注图像和临床数据中的关键信息,从而做出更准确的判断。

技术框架:该研究提出的多模态深度学习框架主要包含以下几个模块:1)图像特征提取模块:利用卷积神经网络(CNN)从乳腺钼靶图像中提取特征;2)临床特征嵌入模块:将临床数据中的类别特征进行嵌入表示;3)交叉注意力融合模块:利用交叉注意力机制融合图像特征和临床特征;4)分类模块:利用全连接层将融合后的特征映射到类别标签,进行乳腺癌诊断。

关键创新:本研究的关键创新在于引入了交叉注意力机制,实现了乳腺钼靶图像特征和临床特征之间的有效融合。与传统的特征拼接或协同注意力方法相比,交叉注意力机制能够更好地学习不同模态特征之间的关联性,从而提高诊断精度。此外,该研究还探索了可解释AI方法,以提高模型的可靠性和可解释性。

关键设计:在网络结构方面,图像特征提取模块可以采用预训练的CNN模型,如ResNet或DenseNet。临床特征嵌入模块可以采用简单的全连接层。交叉注意力模块可以采用多头注意力机制,以学习不同角度的特征关联性。损失函数可以采用交叉熵损失函数,以优化分类性能。具体的参数设置需要根据数据集进行调整。

📊 实验亮点

该研究在公共数据集(TCGA和CBIS-DDSM)上进行了实验,结果表明,基于交叉注意力的多模态融合方法取得了显著的性能提升。具体而言,该模型实现了0.98的AUC-ROC,0.96的准确率,0.94的F1-score,0.92的精确率和0.95的召回率。这些结果表明,该方法能够有效地整合乳腺钼靶图像和临床数据,提高乳腺癌诊断的准确性。

🎯 应用场景

该研究成果可应用于计算机辅助乳腺癌诊断系统,辅助医生进行更准确、更全面的诊断。通过整合乳腺钼靶图像和临床数据,该方法有望提高早期乳腺癌的检出率,降低误诊率,从而改善患者的预后。此外,该研究提出的多模态融合框架也可推广到其他医学图像诊断领域。

📄 摘要(原文)

A precise assessment of the risk of breast lesions can greatly lower it and assist physicians in choosing the best course of action. To categorise breast lesions, the majority of current computer-aided systems only use characteristics from mammograms. Although this method is practical, it does not completely utilise clinical reports' valuable information to attain the best results. When compared to utilising mammography alone, will clinical features greatly enhance the categorisation of breast lesions? How may clinical features and mammograms be combined most effectively? In what ways may explainable AI approaches improve the interpretability and reliability of models used to diagnose breast cancer? To answer these basic problems, a comprehensive investigation is desperately needed. In order to integrate mammography and categorical clinical characteristics, this study examines a number of multimodal deep networks grounded on feature concatenation, co-attention, and cross-attention. The model achieved an AUC-ROC of 0.98, accuracy of 0.96, F1-score of 0.94, precision of 0.92, and recall of 0.95 when tested on publicly accessible datasets (TCGA and CBIS-DDSM).