MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis
作者: Feng Guo, Jiaxiang Liu, Yang Li, Qianqian Shi, Mingkun Xu
分类: cs.CV, cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出MM-NeuroOnco多模态脑肿瘤MRI诊断基准与指令数据集,提升诊断推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑肿瘤诊断 多模态学习 MRI图像 指令调优 医学图像分析
📋 核心要点
- 现有脑肿瘤诊断数据集在标注丰富度和诊断语义上存在局限性,阻碍了模型生成临床可解释推理的能力。
- 提出MM-NeuroOnco数据集,通过多模型协作流程自动补全医学信息,生成诊断相关语义,降低标注成本。
- 构建MM-NeuroOnco-Bench评估基准,并提出NeuroOnco-GPT模型,在诊断问题上取得显著提升,验证数据集有效性。
📝 摘要(中文)
为了提升基于MRI的脑肿瘤诊断模型的性能,特别是模型在图像表现基础上生成具有临床可解释性的推理能力,本研究提出了MM-NeuroOnco,一个大规模多模态基准和指令调优数据集。该数据集包含来自20个数据源的24726张MRI切片,并配有约20万条语义丰富的多模态指令,涵盖多种肿瘤亚型和成像模式。为了缓解诊断语义标注的稀缺性和高成本问题,开发了一种多模型协作流程,用于自动医学信息补全和质量控制,从而生成超越mask标注的诊断相关语义。此外,构建了MM-NeuroOnco-Bench,一个人工标注的评估基准,采用拒绝感知设置以减少封闭式问题格式中固有的偏差。实验表明,即使是最强的基线模型Gemini 3 Flash在诊断相关问题上的准确率仅为41.88%,突显了多模态脑肿瘤诊断理解的巨大挑战。通过利用MM-NeuroOnco进行微调,NeuroOnco-GPT在诊断问题上的准确率绝对提升了27%,证明了该数据集和基准在推进临床多模态诊断推理方面的有效性。
🔬 方法详解
问题定义:论文旨在解决脑肿瘤MRI图像诊断中,现有数据集标注信息不足,模型难以进行临床可解释性推理的问题。现有方法依赖于简单的mask标注,缺乏诊断相关的语义信息,限制了模型在实际临床应用中的能力。
核心思路:论文的核心思路是构建一个大规模、多模态、语义丰富的脑肿瘤MRI数据集,并利用该数据集训练模型,使其能够进行更准确、更具临床价值的诊断推理。通过多模型协作的方式自动补全医学信息,降低标注成本,提高数据质量。
技术框架:整体框架包括数据收集、多模型协作标注、数据集构建、基准测试和模型训练五个主要阶段。首先,收集来自多个数据源的脑肿瘤MRI图像。然后,利用多模型协作流程自动生成诊断相关的语义信息,并进行质量控制。接着,构建MM-NeuroOnco数据集和MM-NeuroOnco-Bench评估基准。最后,利用该数据集训练NeuroOnco-GPT模型,并在基准测试上进行评估。
关键创新:论文的关键创新在于提出了一个多模型协作的自动标注流程,能够有效地生成诊断相关的语义信息,从而构建了一个大规模、高质量的脑肿瘤MRI数据集。此外,论文还提出了一个拒绝感知的评估基准,能够更准确地评估模型在诊断推理方面的能力。
关键设计:多模型协作标注流程的具体实现细节未知。NeuroOnco-GPT模型的具体网络结构和训练参数未知。损失函数的设计细节未知。拒绝感知的评估基准的具体实现方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最强的基线模型Gemini 3 Flash在诊断相关问题上的准确率仅为41.88%,表明了该任务的挑战性。通过利用MM-NeuroOnco进行微调,NeuroOnco-GPT在诊断问题上的准确率绝对提升了27%,证明了该数据集和基准在推进临床多模态诊断推理方面的有效性。
🎯 应用场景
该研究成果可应用于辅助医生进行脑肿瘤诊断,提高诊断准确率和效率。通过提供更丰富的语义信息,可以帮助医生更好地理解肿瘤的特征和病理机制。此外,该数据集和基准可以促进多模态医学图像分析领域的研究进展,推动相关技术的应用。
📄 摘要(原文)
Accurate brain tumor diagnosis requires models to not only detect lesions but also generate clinically interpretable reasoning grounded in imaging manifestations, yet existing public datasets remain limited in annotation richness and diagnostic semantics. To bridge this gap, we introduce MM-NeuroOnco, a large-scale multimodal benchmark and instruction-tuning dataset for brain tumor MRI understanding, consisting of 24,726 MRI slices from 20 data sources paired with approximately 200,000 semantically enriched multimodal instructions spanning diverse tumor subtypes and imaging modalities. To mitigate the scarcity and high cost of diagnostic semantic annotations, we develop a multi-model collaborative pipeline for automated medical information completion and quality control, enabling the generation of diagnosis-related semantics beyond mask-only annotations. Building upon this dataset, we further construct MM-NeuroOnco-Bench, a manually annotated evaluation benchmark with a rejection-aware setting to reduce biases inherent in closed-ended question formats. Evaluation across ten representative models shows that even the strongest baseline, Gemini 3 Flash, achieves only 41.88% accuracy on diagnosis-related questions, highlighting the substantial challenges of multimodal brain tumor diagnostic understanding. Leveraging MM-NeuroOnco, we further propose NeuroOnco-GPT, which achieves a 27% absolute accuracy improvement on diagnostic questions following fine-tuning. This result demonstrates the effectiveness of our dataset and benchmark in advancing clinically grounded multimodal diagnostic reasoning. Code and dataset are publicly available at:this https URL