MiniGPT-Pancreas: Multimodal Large Language Model for Pancreas Cancer Classification and Detection

📄 arXiv: 2412.15925v1 📥 PDF

作者: Andrea Moglia, Elia Clement Nastasio, Luca Mainardi, Pietro Cerveri

分类: cs.CV, cs.AI

发布日期: 2024-12-20

期刊: Moglia, A., Nastasio, E.C., Mainardi, L. et al. MiniGPT-Pancreas: Multimodal Large Language Model for Pancreas Cancer Observation and Localization in CT Images. J Healthc Inform Res (2025)

DOI: 10.1007/s41666-025-00224-6


💡 一句话要点

MiniGPT-Pancreas:用于胰腺癌分类和检测的多模态大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 胰腺癌诊断 医学影像分析 计算机断层扫描

📋 核心要点

  1. 胰腺影像诊断面临挑战,因器官小、边界模糊且个体差异大,现有方法难以有效应对。
  2. MiniGPT-Pancreas通过微调多模态大语言模型,结合视觉和文本信息,辅助医生进行胰腺癌诊断。
  3. 实验结果表明,该模型在胰腺检测和肿瘤分类上表现良好,但在肿瘤检测方面仍有提升空间。

📝 摘要(中文)

由于胰腺的尺寸小、边界模糊以及患者间形状和位置的变异性,胰腺放射影像学检查具有挑战性。本文提出了MiniGPT-Pancreas,一个多模态大型语言模型(MLLM),作为一个交互式聊天机器人,通过整合视觉和文本信息来支持临床医生进行胰腺癌诊断。该模型在MiniGPT-v2的基础上,以级联方式针对胰腺检测、肿瘤分类和肿瘤检测进行微调,使用了来自美国国立卫生研究院(NIH)和医学分割Decathlon(MSD)数据集的结合问题和计算机断层扫描的多模态提示。AbdomenCT-1k数据集用于检测肝脏、脾脏、肾脏和胰腺。MiniGPT-Pancreas在NIH和MSD数据集上胰腺检测的交并比(IoU)分别为0.595和0.550。在MSD数据集上进行胰腺癌分类任务时,准确率、精确率和召回率分别为0.876、0.874和0.878。在AbdomenCT-1k数据集上评估MiniGPT-Pancreas进行多器官检测时,肝脏、肾脏、脾脏和胰腺的IoU分别为0.8399、0.722、0.705和0.497。对于胰腺肿瘤检测任务,在MSD数据集上的IoU得分为0.168。MiniGPT-Pancreas代表了一种有前景的解决方案,可以支持临床医生对胰腺肿瘤图像进行分类。未来的研究需要提高检测任务的得分,特别是对于胰腺肿瘤。

🔬 方法详解

问题定义:论文旨在解决胰腺癌诊断中,由于胰腺器官小、边界模糊以及个体差异大导致的影像诊断困难问题。现有方法在精确检测和分类胰腺肿瘤方面存在局限性,需要更有效的工具来辅助临床医生。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)MiniGPT-v2,通过结合CT扫描图像的视觉信息和文本问题的语义信息,实现更准确的胰腺及肿瘤检测和分类。这种方法旨在模拟医生诊断过程,综合利用多种信息来源。

技术框架:MiniGPT-Pancreas的整体框架是一个级联的微调流程。首先,使用AbdomenCT-1k数据集进行多器官(肝脏、脾脏、肾脏、胰腺)检测的预训练。然后,使用NIH和MSD数据集,针对胰腺检测、肿瘤分类和肿瘤检测三个任务进行微调。输入是CT扫描图像和文本问题,输出是胰腺/肿瘤的分割结果或分类结果。

关键创新:该论文的关键创新在于将多模态大型语言模型应用于胰腺癌诊断领域,并设计了级联的微调策略,使其能够同时处理胰腺检测、肿瘤分类和肿瘤检测三个任务。与传统方法相比,该方法能够更好地利用图像和文本信息,提高诊断的准确性。

关键设计:MiniGPT-Pancreas基于MiniGPT-v2,使用了交叉熵损失函数进行分类任务的训练,并使用Dice损失函数或IoU损失函数进行分割任务的训练。具体参数设置未知,但微调过程至关重要,确保模型能够适应胰腺癌诊断的特定任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiniGPT-Pancreas在胰腺检测任务中,在NIH和MSD数据集上分别取得了0.595和0.550的IoU。在胰腺癌分类任务中,准确率、精确率和召回率均达到了0.87左右。虽然在胰腺肿瘤检测任务中,IoU仅为0.168,但整体结果表明该模型在胰腺癌诊断方面具有潜力。

🎯 应用场景

MiniGPT-Pancreas具有广泛的应用前景,可作为临床医生的辅助诊断工具,提高胰腺癌的早期诊断率和准确性。该模型还可用于医学影像教学和研究,帮助医生和研究人员更好地理解胰腺癌的影像特征。未来,该技术有望推广到其他癌症的诊断和治疗中。

📄 摘要(原文)

Problem: Pancreas radiological imaging is challenging due to the small size, blurred boundaries, and variability of shape and position of the organ among patients. Goal: In this work we present MiniGPT-Pancreas, a Multimodal Large Language Model (MLLM), as an interactive chatbot to support clinicians in pancreas cancer diagnosis by integrating visual and textual information. Methods: MiniGPT-v2, a general-purpose MLLM, was fine-tuned in a cascaded way for pancreas detection, tumor classification, and tumor detection with multimodal prompts combining questions and computed tomography scans from the National Institute of Health (NIH), and Medical Segmentation Decathlon (MSD) datasets. The AbdomenCT-1k dataset was used to detect the liver, spleen, kidney, and pancreas. Results: MiniGPT-Pancreas achieved an Intersection over Union (IoU) of 0.595 and 0.550 for the detection of pancreas on NIH and MSD datasets, respectively. For the pancreas cancer classification task on the MSD dataset, accuracy, precision, and recall were 0.876, 0.874, and 0.878, respectively. When evaluating MiniGPT-Pancreas on the AbdomenCT-1k dataset for multi-organ detection, the IoU was 0.8399 for the liver, 0.722 for the kidney, 0.705 for the spleen, and 0.497 for the pancreas. For the pancreas tumor detection task, the IoU score was 0.168 on the MSD dataset. Conclusions: MiniGPT-Pancreas represents a promising solution to support clinicians in the classification of pancreas images with pancreas tumors. Future research is needed to improve the score on the detection task, especially for pancreas tumors.