Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis

📄 arXiv: 2603.19516v1 📥 PDF

作者: Sheng Lu, Hao Chen, Rui Yin, Juyan Ba, Yu Zhang, Yuanzhe Li

分类: cs.CV, cs.AI

发布日期: 2026-03-19

备注: Computer Vision and Pattern Recognition 2026


💡 一句话要点

Gastric-X:用于胃癌分析的多模态多阶段基准数据集,促进视觉-语言模型发展。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胃癌分析 多模态学习 视觉-语言模型 医学影像 基准数据集

📋 核心要点

  1. 现有视觉-语言模型在医学诊断应用受限,缺乏全面、结构化的数据集来捕捉真实临床工作流程。
  2. Gastric-X数据集提供多模态数据,包括CT扫描、内窥镜图像、生化指标和专家报告,模拟真实临床场景。
  3. 通过VQA、报告生成等任务评估VLMs性能,旨在探究模型理解医学数据的能力,并促进医学VLMs发展。

📝 摘要(中文)

为了推进视觉-语言模型(VLMs)在临床应用,特别是在胃癌领域的发展,我们推出了Gastric-X,一个大规模多模态胃癌分析基准数据集,包含1.7K个病例。每个病例包括配对的静息和动态CT扫描、内窥镜图像、一组结构化的生化指标、专家撰写的诊断报告以及肿瘤区域的边界框注释,反映了真实的临床情况。我们系统地检验了最新的VLMs在五个核心任务上的能力:视觉问答(VQA)、报告生成、跨模态检索、疾病分类和病灶定位。这些任务模拟了临床工作流程的关键阶段,从视觉理解和推理到多模态决策支持。通过这项评估,我们不仅旨在评估模型性能,还旨在探究VLM理解的本质:当前的VLMs能否有意义地将生化信号与空间肿瘤特征和文本报告相关联?我们设想Gastric-X是使机器智能与医生的认知和证据推理过程相一致的一步,并作为一种资源来激发下一代医学VLMs的发展。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)在自然领域表现出色,但在医学诊断领域的应用受到限制,主要原因是缺乏能够反映真实临床工作流程的全面且结构化的数据集。现有方法难以将多种模态的医学信息(如影像、生化指标、文本报告)有效整合,从而影响了诊断的准确性和效率。

核心思路:Gastric-X数据集的核心思路是构建一个大规模、多模态、多阶段的胃癌分析基准,以模拟真实的临床诊断流程。通过提供包含CT扫描、内窥镜图像、生化指标和专家报告等多种模态的数据,以及模拟临床任务(如VQA、报告生成等),来促进VLMs在医学领域的应用。这样设计的目的是为了让模型能够学习到不同模态数据之间的关联性,从而提高诊断的准确性和效率。

技术框架:Gastric-X数据集的技术框架主要包括以下几个部分:数据收集与整理,包括CT扫描、内窥镜图像、生化指标和专家报告等;数据标注,包括肿瘤区域的边界框标注;任务定义,包括视觉问答(VQA)、报告生成、跨模态检索、疾病分类和病灶定位等;模型评估,使用最新的VLMs在定义的任务上进行评估,并分析模型性能。

关键创新:Gastric-X数据集的关键创新在于其多模态性和多阶段性。它不仅包含了多种模态的医学数据,还模拟了真实的临床诊断流程,从而能够更全面地评估VLMs在医学领域的应用能力。此外,该数据集还提供了专家撰写的诊断报告和肿瘤区域的边界框标注,为模型学习提供了更丰富的监督信息。

关键设计:Gastric-X数据集的关键设计包括:病例选择,选择具有代表性的胃癌病例;数据配对,确保不同模态的数据之间具有对应关系;任务设计,设计的任务能够反映真实的临床需求;评估指标,选择合适的评估指标来衡量模型性能。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的VLMs。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在Gastric-X数据集上对现有VLMs进行系统评估,揭示了模型在医学图像理解、报告生成和跨模态推理方面的能力。实验结果表明,现有VLMs在某些任务上表现良好,但在将生化信号与肿瘤特征和文本报告相关联方面仍存在挑战。Gastric-X为未来医学VLMs的发展提供了重要的基准和方向。

🎯 应用场景

Gastric-X数据集可用于训练和评估医学视觉-语言模型,辅助医生进行胃癌诊断、病情评估和治疗方案制定。该数据集有望促进智能医疗的发展,提高诊断效率和准确性,并为患者提供更个性化的治疗方案。未来,该数据集可扩展到其他癌症类型,构建更全面的医学影像分析平台。

📄 摘要(原文)

Recent vision-language models (VLMs) have shown strong generalization and multimodal reasoning abilities in natural domains. However, their application to medical diagnosis remains limited by the lack of comprehensive and structured datasets that capture real clinical workflows. To advance the development of VLMs for clinical applications, particularly in gastric cancer, we introduce Gastric-X, a large-scale multimodal benchmark for gastric cancer analysis providing 1.7K cases. Each case in Gastric-X includes paired resting and dynamic CT scans, endoscopic image, a set of structured biochemical indicators, expert-authored diagnostic notes, and bounding box annotations of tumor regions, reflecting realistic clinical conditions. We systematically examine the capability of recent VLMs on five core tasks: Visual Question Answering (VQA), report generation, cross-modal retrieval, disease classification, and lesion localization. These tasks simulate critical stages of clinical workflow, from visual understanding and reasoning to multimodal decision support. Through this evaluation, we aim not only to assess model performance but also to probe the nature of VLM understanding: Can current VLMs meaningfully correlate biochemical signals with spatial tumor features and textual reports? We envision Gastric-X as a step toward aligning machine intelligence with the cognitive and evidential reasoning processes of physicians, and as a resource to inspire the development of next-generation medical VLMs.