MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

📄 arXiv: 2602.22955v1 📥 PDF

作者: Feng Guo, Jiaxiang Liu, Yang Li, Qianqian Shi, Mingkun Xu

分类: cs.CV, cs.AI

发布日期: 2026-02-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出MM-NeuroOnco多模态脑肿瘤MRI诊断基准与指令数据集,促进临床可解释的诊断推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑肿瘤诊断 多模态学习 MRI图像分析 指令调优 医学图像理解

📋 核心要点

  1. 现有脑肿瘤MRI数据集缺乏丰富的标注和诊断语义,限制了模型生成临床可解释推理的能力。
  2. 提出MM-NeuroOnco数据集,包含高质量的多模态指令,并采用多模型协作流程自动补全医学信息。
  3. 构建MM-NeuroOnco-Bench评估基准,并提出NeuroOnco-GPT模型,在诊断问题上取得显著提升。

📝 摘要(中文)

为了弥合现有脑肿瘤诊断数据集中标注丰富度和诊断语义的差距,本文提出了MM-NeuroOnco,一个大规模多模态基准和指令调优数据集,用于脑肿瘤MRI理解。该数据集包含来自20个数据源的24726张MRI切片,并配有约20万条语义丰富的多模态指令,涵盖不同的肿瘤亚型和成像模态。为了缓解诊断语义标注的稀缺性和高成本问题,开发了一种多模型协作流程,用于自动医学信息补全和质量控制,从而生成超出仅有掩码标注的诊断相关语义。基于此数据集,构建了MM-NeuroOnco-Bench,一个人工标注的评估基准,具有拒绝感知设置,以减少封闭式问题格式中固有的偏差。在十个代表性模型上的评估表明,即使是最强的基线模型Gemini 3 Flash在诊断相关问题上的准确率也仅为41.88%,突显了多模态脑肿瘤诊断理解的巨大挑战。利用MM-NeuroOnco,进一步提出了NeuroOnco-GPT,经过微调后,在诊断问题上的绝对准确率提高了27%。

🔬 方法详解

问题定义:脑肿瘤的精确诊断不仅需要检测病灶,还需要生成基于影像表现的、临床可解释的推理。然而,现有的公开数据集在标注的丰富性和诊断语义方面存在局限性,阻碍了相关研究的进展。现有方法难以提供足够细致的诊断信息,例如肿瘤亚型、成像模态等。

核心思路:论文的核心思路是构建一个大规模、高质量的多模态数据集,包含丰富的诊断语义标注,并利用该数据集训练模型,使其能够进行临床可解释的诊断推理。通过多模型协作的方式,自动完成医学信息的补全和质量控制,降低标注成本,提高标注效率。

技术框架:整体框架包括数据收集与整理、多模态指令生成、数据集构建和模型训练与评估四个主要阶段。首先,收集来自多个数据源的脑肿瘤MRI图像。然后,利用多模型协作流程生成与图像相关的多模态指令,包括肿瘤类型、位置、大小等信息。接着,将图像和指令配对,构建MM-NeuroOnco数据集。最后,利用该数据集训练模型,并在MM-NeuroOnco-Bench上进行评估。

关键创新:论文的关键创新在于提出了一个多模型协作的自动医学信息补全和质量控制流程。该流程能够有效地生成超出仅有掩码标注的诊断相关语义,从而大大降低了标注成本,提高了标注效率。此外,MM-NeuroOnco-Bench的拒绝感知设置能够减少封闭式问题格式中固有的偏差,使得评估结果更加可靠。

关键设计:多模型协作流程的具体实现细节未知,但可以推测其可能包含多个预训练的医学图像分析模型,例如肿瘤分割模型、肿瘤分类模型等。这些模型共同对MRI图像进行分析,并生成初步的诊断信息。然后,通过质量控制机制,例如人工审核或模型一致性检查,对诊断信息进行修正和完善。损失函数和网络结构等技术细节在论文中未详细说明,属于NeuroOnco-GPT模型设计的范畴,需要参考相关代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强的基线模型Gemini 3 Flash在MM-NeuroOnco-Bench的诊断相关问题上的准确率也仅为41.88%,表明该任务具有挑战性。通过在MM-NeuroOnco数据集上进行微调,NeuroOnco-GPT模型在诊断问题上的绝对准确率提高了27%,证明了该数据集的有效性。

🎯 应用场景

该研究成果可应用于辅助医生进行脑肿瘤诊断,提高诊断效率和准确性。通过训练具有临床推理能力的AI模型,可以为医生提供更全面的诊断信息,减少误诊和漏诊的可能性。此外,该数据集和基准可以促进多模态医学图像分析领域的研究进展,推动相关技术的创新和应用。

📄 摘要(原文)

Accurate brain tumor diagnosis requires models to not only detect lesions but also generate clinically interpretable reasoning grounded in imaging manifestations, yet existing public datasets remain limited in annotation richness and diagnostic semantics. To bridge this gap, we introduce MM-NeuroOnco, a large-scale multimodal benchmark and instruction-tuning dataset for brain tumor MRI understanding, consisting of 24,726 MRI slices from 20 data sources paired with approximately 200,000 semantically enriched multimodal instructions spanning diverse tumor subtypes and imaging modalities. To mitigate the scarcity and high cost of diagnostic semantic annotations, we develop a multi-model collaborative pipeline for automated medical information completion and quality control, enabling the generation of diagnosis-related semantics beyond mask-only annotations. Building upon this dataset, we further construct MM-NeuroOnco-Bench, a manually annotated evaluation benchmark with a rejection-aware setting to reduce biases inherent in closed-ended question formats. Evaluation across ten representative models shows that even the strongest baseline, Gemini 3 Flash, achieves only 41.88% accuracy on diagnosis-related questions, highlighting the substantial challenges of multimodal brain tumor diagnostic understanding. Leveraging MM-NeuroOnco, we further propose NeuroOnco-GPT, which achieves a 27% absolute accuracy improvement on diagnostic questions following fine-tuning. This result demonstrates the effectiveness of our dataset and benchmark in advancing clinically grounded multimodal diagnostic reasoning. Code and dataset are publicly available at: https://github.com/gfnnnb/MM-NeuroOnco