Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation
作者: Cheng-Yi Li, Kao-Jung Chang, Cheng-Fu Yang, Hsin-Yu Wu, Wenting Chen, Hritik Bansal, Ling Chen, Yi-Ping Yang, Yu-Chun Chen, Shih-Pin Chen, Jiing-Feng Lirng, Kai-Wei Chang, Shih-Hwa Chiou
分类: cs.CL
发布日期: 2024-07-02
备注: 6 figures, 5 supplementary figures, 8 supplementary tables
期刊: Nature Communications 16, 2258 (2025)
DOI: 10.1038/s41467-025-57426-0
💡 一句话要点
提出BrainGPT,一个用于生成3D脑部CT报告的临床视觉指令调优多模态大语言模型框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 3D脑部CT报告生成 临床视觉指令调优 放射学报告 医学影像 FORTE评估指标 图灵测试
📋 核心要点
- 现有方法在处理3D脑部CT报告生成任务时,面临数据复杂性、模型容量不足以及评估指标不准确等挑战。
- 论文提出BrainGPT模型,通过临床视觉指令调优(CVIT)的方式,使模型能够生成符合放射学标准的3D脑部CT报告。
- 实验结果表明,BrainGPT在多个指标上表现出色,并且在图灵测试中,其生成的报告与人类编写的报告难以区分。
📝 摘要(中文)
多模态大语言模型(MLLMs)在医学应用领域,特别是放射学报告生成方面,展现出巨大的潜力。然而,在二维放射学图像描述方面的初步成功,并不能完全反映三维解剖结构中真实世界的诊断挑战。为了解决现有文献中三个关键的局限性,包括(1)数据复杂性,(2)模型容量,和(3)评估指标的保真度,我们收集了一个包含18885个文本-扫描对的3D-BrainCT数据集,并应用临床视觉指令调优(CVIT)来训练BrainGPT模型,以生成符合放射学标准的3D脑部CT报告。在内部测试中,BrainGPT的BLEU-1得分为44.35,BLEU-4得分为20.38,METEOR得分为30.13,ROUGE-L得分为47.6,CIDEr-R得分为211.77,并在外部验证CQ500数据集上,对中线移位的描述准确率达到0.91。通过进一步检查生成的报告,我们发现传统的指标似乎只衡量了表面文本的相似性,而未能衡量诊断目的的信息密度。为了弥补这一差距,我们提出了一种新的面向特征的放射学任务评估(FORTE)方法,以评估报告的临床相关性(病灶特征和地标)。值得注意的是,BrainGPT模型的平均FORTE F1得分为0.71(程度=0.661;地标=0.706;特征=0.693;印象=0.779)。为了证明BrainGPT模型具备生成类人放射学报告的客观能力,我们进行了一项图灵测试,招募了11名医生评估员,大约74%的BrainGPT生成的描述与人类编写的描述无法区分。我们的工作体现了一个整体框架,展示了策划3D脑部CT数据集、微调解剖学敏感的语言模型以及提出稳健的放射学评估指标的第一手经验。
🔬 方法详解
问题定义:现有方法在3D脑部CT报告生成任务中,主要存在三个痛点:一是缺乏高质量的3D脑部CT数据集;二是模型容量不足,难以捕捉复杂的解剖结构和临床信息;三是评估指标过于关注文本表面相似性,无法准确衡量报告的临床价值。
核心思路:论文的核心思路是利用多模态大语言模型,结合临床视觉指令调优(CVIT)技术,训练一个能够理解3D脑部CT图像并生成高质量放射学报告的模型。通过构建大规模数据集和设计合适的评估指标,提升模型的性能和实用性。
技术框架:BrainGPT的整体框架包括以下几个主要模块:1) 3D-BrainCT数据集构建:收集并整理包含18885个文本-扫描对的3D脑部CT数据集。2) 临床视觉指令调优(CVIT):使用CVIT技术对多模态大语言模型进行微调,使其能够理解3D脑部CT图像并生成放射学报告。3) 面向特征的放射学任务评估(FORTE):提出一种新的评估指标,用于衡量报告的临床相关性。
关键创新:论文最重要的技术创新点在于提出了一个完整的框架,包括数据集构建、模型训练和评估指标设计,解决了现有方法在3D脑部CT报告生成任务中的多个痛点。此外,FORTE评估指标能够更准确地衡量报告的临床价值,弥补了传统指标的不足。
关键设计:论文的关键设计包括:1) 构建大规模3D-BrainCT数据集,为模型训练提供充足的数据支持。2) 采用临床视觉指令调优(CVIT)技术,提升模型的性能。3) 设计FORTE评估指标,更准确地衡量报告的临床价值。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。
📊 实验亮点
BrainGPT模型在内部测试中取得了显著的性能提升,BLEU-1达到44.35,CIDEr-R达到211.77。在外部CQ500数据集上,中线移位的描述准确率达到0.91。更重要的是,通过图灵测试,74%的BrainGPT生成报告与人类报告无法区分,证明了其生成报告的质量。
🎯 应用场景
该研究成果可应用于辅助放射科医生进行脑部CT报告的生成,提高诊断效率和准确性。未来,该技术有望扩展到其他医学影像领域,为临床诊断提供更智能化的支持,并促进远程医疗和人工智能辅助诊断的发展。
📄 摘要(原文)
Multi-modal large language models (MLLMs) have been given free rein to explore exciting medical applications with a primary focus on radiology report generation. Nevertheless, the preliminary success in 2D radiology captioning is incompetent to reflect the real-world diagnostic challenge in the volumetric 3D anatomy. To mitigate three crucial limitation aspects in the existing literature, including (1) data complexity, (2) model capacity, and (3) evaluation metric fidelity, we collected an 18,885 text-scan pairs 3D-BrainCT dataset and applied clinical visual instruction tuning (CVIT) to train BrainGPT models to generate radiology-adherent 3D brain CT reports. Statistically, our BrainGPT scored BLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, and CIDEr-R = 211.77 during internal testing and demonstrated an accuracy of 0.91 in captioning midline shifts on the external validation CQ500 dataset. By further inspecting the captioned report, we reported that the traditional metrics appeared to measure only the surface text similarity and failed to gauge the information density of the diagnostic purpose. To close this gap, we proposed a novel Feature-Oriented Radiology Task Evaluation (FORTE) to estimate the report's clinical relevance (lesion feature and landmarks). Notably, the BrainGPT model scored an average FORTE F1-score of 0.71 (degree=0.661; landmark=0.706; feature=0.693; impression=0.779). To demonstrate that BrainGPT models possess objective readiness to generate human-like radiology reports, we conducted a Turing test that enrolled 11 physician evaluators, and around 74% of the BrainGPT-generated captions were indistinguishable from those written by humans. Our work embodies a holistic framework that showcased the first-hand experience of curating a 3D brain CT dataset, fine-tuning anatomy-sensible language models, and proposing robust radiology evaluation metrics.