Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI
作者: Lama Moukheiber, Caleb M. Yeung, Haotian Xue, Alec Helbling, Zelin Zhao, Yongxin Chen
分类: cs.CV, cs.AI
发布日期: 2026-04-17
💡 一句话要点
提出SGMRI-VQA基准,用于评估医学VLM在体积MRI上的多帧空间推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 视觉语言模型 空间推理 MRI 基准数据集
📋 核心要点
- 现有医学VLM缺乏透明的空间推理能力,且评估基准忽略了MRI的体积特性。
- 提出SGMRI-VQA基准,包含多帧MRI图像和专家标注的空间定位信息,用于评估VLM的空间推理能力。
- 实验表明,通过边界框监督微调Qwen3-VL-8B,可以显著提升VLM在SGMRI-VQA上的空间定位性能。
📝 摘要(中文)
空间推理和视觉定位是视觉语言模型(VLMs)的核心能力,但大多数医学VLMs在没有透明推理或空间证据的情况下做出预测。现有的基准也仅在孤立的2D图像上评估VLMs,忽略了临床成像的体积特性,即发现可能跨越多个帧或仅出现在几个切片上。我们引入了空间定位MRI视觉问答(SGMRI-VQA),这是一个包含41307个QA对的基准,用于体积MRI上的多帧、空间定位推理。该基准基于fastMRI+数据集中专家放射科医生的注释构建,涵盖脑部和膝部研究,每个QA对都包含一个与临床医生对齐的思维链跟踪,其中包含帧索引的边界框坐标。任务在检测、定位、计数/分类和描述之间分层组织,要求模型共同推理存在什么、在哪里以及它跨越哪些帧。我们对10个VLM进行了基准测试,结果表明,通过边界框监督对Qwen3-VL-8B进行监督微调,始终优于强大的零样本基线,这表明有针对性的空间监督是实现有根据的临床推理的有效途径。
🔬 方法详解
问题定义:现有医学视觉语言模型(VLMs)在处理医学图像时,缺乏透明的空间推理能力,难以解释其预测结果。此外,现有的评估基准主要关注孤立的2D图像,忽略了临床MRI图像的体积特性,即病灶可能跨越多个帧或仅出现在少数切片上。这使得现有VLM难以有效利用MRI图像中的空间信息进行推理和诊断。
核心思路:论文的核心思路是构建一个包含多帧MRI图像和空间定位信息的基准数据集,并利用该数据集对VLM进行监督微调,从而提升VLM在体积MRI图像上的空间推理能力。通过提供专家标注的边界框坐标,模型可以学习将视觉信息与空间位置相关联,从而实现更准确和可解释的预测。
技术框架:SGMRI-VQA基准数据集包含41307个QA对,涵盖脑部和膝部MRI研究。每个QA对都包含一个临床医生对齐的思维链跟踪,其中包含帧索引的边界框坐标。任务被组织成一个层次结构,包括检测、定位、计数/分类和描述。研究人员使用该基准测试了10个VLM,并通过边界框监督对Qwen3-VL-8B进行了微调。
关键创新:该论文的关键创新在于提出了SGMRI-VQA基准数据集,该数据集专门用于评估VLM在体积MRI图像上的多帧空间推理能力。与现有基准相比,SGMRI-VQA更贴近临床实际,能够更全面地评估VLM在医学图像分析中的性能。此外,论文还证明了通过边界框监督微调VLM可以有效提升其空间定位能力。
关键设计:论文的关键设计包括:1) 构建包含多帧MRI图像和空间定位信息的SGMRI-VQA基准数据集;2) 设计分层任务结构,涵盖检测、定位、计数/分类和描述;3) 使用边界框监督对Qwen3-VL-8B进行微调,损失函数包括定位损失和分类损失等。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过边界框监督对Qwen3-VL-8B进行微调,可以显著提升VLM在SGMRI-VQA基准上的空间定位性能,优于强大的零样本基线。这表明有针对性的空间监督是提升VLM在医学图像分析中空间推理能力的有效途径。具体的性能提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
该研究成果可应用于辅助放射科医生进行疾病诊断和治疗方案制定。通过提升VLM在MRI图像上的空间推理能力,可以帮助医生更准确地定位病灶、评估病情,并制定更有效的治疗方案。此外,该研究还可以促进医学图像分析领域的发展,为开发更智能、更可靠的医学影像诊断系统奠定基础。
📄 摘要(原文)
Spatial reasoning and visual grounding are core capabilities for vision-language models (VLMs), yet most medical VLMs produce predictions without transparent reasoning or spatial evidence. Existing benchmarks also evaluate VLMs on isolated 2D images, overlooking the volumetric nature of clinical imaging, where findings can span multiple frames or appear on only a few slices. We introduce Spatially Grounded MRI Visual Question Answering (SGMRI-VQA), a 41,307-pair benchmark for multi-frame, spatially grounded reasoning on volumetric MRI. Built from expert radiologist annotations in the fastMRI+ dataset across brain and knee studies, each QA pair includes a clinician-aligned chain-of-thought trace with frame-indexed bounding box coordinates. Tasks are organized hierarchically across detection, localization, counting/classification, and captioning, requiring models to jointly reason about what is present, where it is, and across which frames it extends. We benchmark 10 VLMs and show that supervised fine-tuning of Qwen3-VL-8B with bounding box supervision consistently improves grounding performance over strong zero-shot baselines, indicating that targeted spatial supervision is an effective path toward grounded clinical reasoning.