Multimodal Brain Tumour Classification Using Feature Fusion

📄 arXiv: 2606.11107v1 📥 PDF

作者: Wajih ul Islam, Muhammad Yaqoob, Javed Ali Khan, Volker Steuber

分类: eess.IV, cs.CV, cs.LG

发布日期: 2026-06-09


💡 一句话要点

提出多模态脑肿瘤分类方法以提升诊断准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑肿瘤分类 多模态融合 放射组学特征 深度学习 医学影像分析

📋 核心要点

  1. 现有深度学习模型主要依赖MRI/CT图像,无法模拟临床医生的多模态推理,导致诊断准确性不足。
  2. 本文提出一种双分支多模态网络,结合原始MRI图像和91个放射组学特征,以实现更准确的脑肿瘤分类。
  3. 在7200张图像的数据集上进行的实验中,所有多模态配置均优于单模态基线,门控融合方法达到了96.13%的最佳准确率。

📝 摘要(中文)

临床医生通过综合患者症状、病史和来自MRI及CT等多种成像数据进行脑肿瘤的诊断。然而,大多数深度学习模型仅依赖MRI/CT图像,未能模拟临床医生的多模态推理。本文探索了一种双分支多模态网络,结合原始MRI扫描与91个提取的放射组学特征(强度、纹理、形状和边界描述符),将脑肿瘤分类为胶质瘤、脑膜瘤、垂体瘤和无肿瘤。预训练的CNN骨干网络编码图像流,而专用的MLP编码放射组学流。两者通过拼接、门控或双向跨模态注意力策略进行融合。在对平衡的7200张图像数据集进行的九次实验中,所有多模态配置均优于单模态基线,其中门控融合实现了96.13%的最佳准确率。

🔬 方法详解

问题定义:本文旨在解决现有脑肿瘤分类方法中对多模态信息利用不足的问题。现有方法通常只依赖单一的MRI或CT图像,未能充分考虑临床医生在诊断时综合多种信息的能力。

核心思路:论文提出的双分支多模态网络通过结合原始MRI图像和提取的放射组学特征,模拟临床医生的多模态推理过程,从而提高分类准确性。

技术框架:整体架构包括两个主要模块:一个是基于CNN的图像流编码器,另一个是基于MLP的放射组学流编码器。两者通过不同的融合策略(拼接、门控、双向跨模态注意力)进行信息整合。

关键创新:最重要的技术创新在于通过多模态特征融合来提升分类性能,尤其是门控融合策略的引入,使得模型能够动态调整不同模态信息的权重,从而更好地适应不同的诊断场景。

关键设计:在模型设计中,使用了预训练的CNN作为图像编码器,确保了图像特征的有效提取。同时,放射组学特征的选择涵盖了强度、纹理、形状和边界描述符,确保了多样性和信息的丰富性。

📊 实验亮点

在7200张图像的数据集上进行的实验表明,所有多模态配置均优于单模态基线,尤其是门控融合方法达到了96.13%的最佳准确率,显示出显著的性能提升。这一结果验证了多模态特征融合在脑肿瘤分类中的有效性。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析、脑肿瘤诊断及治疗方案制定。通过提高脑肿瘤分类的准确性,能够为临床医生提供更可靠的决策支持,进而改善患者的治疗效果和预后。此外,该方法的多模态融合思路也可推广至其他医学领域的影像分析任务。

📄 摘要(原文)

Clinicians diagnose brain tumors by synthesizing patient symptoms, medical history, and quantitative imaging data from modalities such as MRI and CT scans into a unified clinical judgement. However, most deep learning models rely on MRI/CT images alone, failing to replicate the clinicians multimodal reasoning. We explore a two-branch multimodal network combining raw MRI scans with 91 extracted radiomic features (intensity, texture, shape, and boundary descriptors) to classify brain tumors into glioma, meningioma, pituitary, and no-tumor. A pre-trained CNN backbone encodes the image stream, whereas a dedicated MLP encodes the radiomic stream. Both streams are fused via concatenation, gated, or bidirectional cross-modal attention strategies. Across nine experimental runs on a balanced 7,200 image dataset, all multimodal configurations outperform unimodal baselines with gated fusion achieving the best accuracy of 96.13%.