Multimodal Brain Tumour Classification Using Feature Fusion

作者: Wajih ul Islam, Muhammad Yaqoob, Javed Ali Khan, Volker Steuber

分类: eess.IV, cs.CV, cs.LG

发布日期: 2026-06-09

💡 一句话要点

提出多模态脑肿瘤分类方法以提升诊断准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 脑肿瘤分类 多模态融合 放射组学特征 深度学习 医学影像分析

📋 核心要点

现有深度学习模型主要依赖MRI/CT图像，无法模拟临床医生的多模态推理，导致诊断准确性不足。
本文提出一种双分支多模态网络，结合原始MRI图像和91个放射组学特征，以实现更准确的脑肿瘤分类。
在7200张图像的数据集上进行的实验中，所有多模态配置均优于单模态基线，门控融合方法达到了96.13%的最佳准确率。

📝 摘要（中文）

临床医生通过综合患者症状、病史和来自MRI及CT等多种成像数据进行脑肿瘤的诊断。然而，大多数深度学习模型仅依赖MRI/CT图像，未能模拟临床医生的多模态推理。本文探索了一种双分支多模态网络，结合原始MRI扫描与91个提取的放射组学特征（强度、纹理、形状和边界描述符），将脑肿瘤分类为胶质瘤、脑膜瘤、垂体瘤和无肿瘤。预训练的CNN骨干网络编码图像流，而专用的MLP编码放射组学流。两者通过拼接、门控或双向跨模态注意力策略进行融合。在对平衡的7200张图像数据集进行的九次实验中，所有多模态配置均优于单模态基线，其中门控融合实现了96.13%的最佳准确率。

🔬 方法详解

问题定义：本文旨在解决现有脑肿瘤分类方法中对多模态信息利用不足的问题。现有方法通常只依赖单一的MRI或CT图像，未能充分考虑临床医生在诊断时综合多种信息的能力。

核心思路：论文提出的双分支多模态网络通过结合原始MRI图像和提取的放射组学特征，模拟临床医生的多模态推理过程，从而提高分类准确性。

技术框架：整体架构包括两个主要模块：一个是基于CNN的图像流编码器，另一个是基于MLP的放射组学流编码器。两者通过不同的融合策略（拼接、门控、双向跨模态注意力）进行信息整合。

关键创新：最重要的技术创新在于通过多模态特征融合来提升分类性能，尤其是门控融合策略的引入，使得模型能够动态调整不同模态信息的权重，从而更好地适应不同的诊断场景。

关键设计：在模型设计中，使用了预训练的CNN作为图像编码器，确保了图像特征的有效提取。同时，放射组学特征的选择涵盖了强度、纹理、形状和边界描述符，确保了多样性和信息的丰富性。

📊 实验亮点

在7200张图像的数据集上进行的实验表明，所有多模态配置均优于单模态基线，尤其是门控融合方法达到了96.13%的最佳准确率，显示出显著的性能提升。这一结果验证了多模态特征融合在脑肿瘤分类中的有效性。

🎯 应用场景

该研究的潜在应用领域包括医学影像分析、脑肿瘤诊断及治疗方案制定。通过提高脑肿瘤分类的准确性，能够为临床医生提供更可靠的决策支持，进而改善患者的治疗效果和预后。此外，该方法的多模态融合思路也可推广至其他医学领域的影像分析任务。

📄 摘要（原文）

Clinicians diagnose brain tumors by synthesizing patient symptoms, medical history, and quantitative imaging data from modalities such as MRI and CT scans into a unified clinical judgement. However, most deep learning models rely on MRI/CT images alone, failing to replicate the clinicians multimodal reasoning. We explore a two-branch multimodal network combining raw MRI scans with 91 extracted radiomic features (intensity, texture, shape, and boundary descriptors) to classify brain tumors into glioma, meningioma, pituitary, and no-tumor. A pre-trained CNN backbone encodes the image stream, whereas a dedicated MLP encodes the radiomic stream. Both streams are fused via concatenation, gated, or bidirectional cross-modal attention strategies. Across nine experimental runs on a balanced 7,200 image dataset, all multimodal configurations outperform unimodal baselines with gated fusion achieving the best accuracy of 96.13%.

Multimodal Brain Tumour Classification Using Feature Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理