Exploring Multimodal Large Language Models for Radiology Report Error-checking

📄 arXiv: 2312.13103v2 📥 PDF

作者: Jinge Wu, Yunsoo Kim, Eva C. Keller, Jamie Chow, Adam P. Levine, Nikolas Pontikos, Zina Ibrahim, Paul Taylor, Michelle C. Williams, Honghan Wu

分类: cs.CL, cs.CV

发布日期: 2023-12-20 (更新: 2024-03-03)


💡 一句话要点

提出多模态大语言模型用于辅助放射科医生进行报告错误检查。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 放射科报告 错误检查 医学影像 临床应用

📋 核心要点

  1. 放射科报告错误可能导致误诊,现有方法缺乏有效辅助工具。
  2. 利用多模态LLM,结合影像和文本信息,辅助医生进行报告错误检查。
  3. 实验表明,微调模型在错误检测上显著优于基线,甚至超越领域专家。

📝 摘要(中文)

本文提出了一种多模态大语言模型(LLM)在临床上的应用,旨在辅助放射科医生检查报告中的错误。我们从真实的放射学数据集(包括X射线和CT扫描)创建了一个评估数据集。原始报告的子集被修改,通过引入三种类型的错误(“插入”、“删除”和“替换”)来包含合成错误。评估包含两个难度级别:SIMPLE用于二元错误检查,COMPLEX用于识别错误类型。在SIMPLE级别,我们微调后的模型在MIMIC-CXR和IU X射线数据上的性能分别显著提高了47.4%和25.4%。在未见过的模态(CT扫描)中也观察到了这种性能提升,模型表现比基线模型提高了19.46%。该模型在MIMIC-CXR数据集中也超过了领域专家的准确率,提高了1.67%。值得注意的是,在临床医生未得出正确结论的测试集子集(N=21)中,LLaVA集成模型正确识别了71.4%的病例。然而,所有模型在识别错误类型方面表现不佳,突显了COMPLEX级别的难度。这项研究标志着利用多模态LLM提高放射学诊断准确性方面迈出了有希望的一步。集成模型表现出与临床医生相当的性能,甚至捕捉到了人类忽略的错误。

🔬 方法详解

问题定义:论文旨在解决放射科医生在撰写报告时可能出现的错误,这些错误可能导致误诊或延误治疗。现有方法主要依赖人工校对,效率低且容易遗漏。因此,需要一种自动化的辅助工具来提高报告的准确性。

核心思路:论文的核心思路是利用多模态大语言模型(LLM),将放射影像和报告文本结合起来,让模型能够理解影像内容并检查报告中是否存在错误。通过训练模型识别不同类型的错误,可以辅助医生进行更准确的诊断。

技术框架:整体框架包括以下几个主要步骤:1) 数据集构建:收集真实的放射影像和报告数据,并人工合成包含错误的报告。2) 模型选择:选择合适的多模态LLM,例如LLaVA。3) 模型微调:使用构建的数据集对模型进行微调,使其能够识别报告中的错误。4) 模型评估:使用测试集评估模型的性能,并与基线模型和领域专家进行比较。

关键创新:该研究的关键创新在于将多模态LLM应用于放射科报告错误检查这一临床场景。通过结合影像和文本信息,模型能够更全面地理解报告内容,从而更准确地识别错误。此外,该研究还构建了一个包含合成错误的数据集,为模型的训练和评估提供了基础。

关键设计:数据集包含三种类型的错误:“插入”、“删除”和“替换”。评估分为两个难度级别:SIMPLE(二元错误检查)和COMPLEX(识别错误类型)。模型采用LLaVA架构,并使用交叉熵损失函数进行微调。实验中使用了MIMIC-CXR和IU X-ray数据集,以及CT扫描数据。采用了集成模型,将多个模型的预测结果进行融合,以提高整体性能。

📊 实验亮点

在SIMPLE级别的错误检测任务中,微调后的模型在MIMIC-CXR和IU X射线数据上的性能分别显著提高了47.4%和25.4%。在CT扫描数据上,模型表现比基线模型提高了19.46%。在MIMIC-CXR数据集中,该模型甚至超过了领域专家的准确率,提高了1.67%。在临床医生未得出正确结论的病例中,LLaVA集成模型正确识别了71.4%的病例。

🎯 应用场景

该研究成果可应用于临床放射科,作为辅助工具帮助医生检查报告错误,提高诊断准确性,减少误诊率。未来可扩展到其他医学影像领域,例如病理学、眼科等,具有广阔的应用前景和重要的临床价值。

📄 摘要(原文)

This paper proposes one of the first clinical applications of multimodal large language models (LLMs) as an assistant for radiologists to check errors in their reports. We created an evaluation dataset from real-world radiology datasets (including X-rays and CT scans). A subset of original reports was modified to contain synthetic errors by introducing three types of mistakes: "insert", "remove", and "substitute". The evaluation contained two difficulty levels: SIMPLE for binary error-checking and COMPLEX for identifying error types. At the SIMPLE level, our fine-tuned model significantly enhanced performance by 47.4% and 25.4% on MIMIC-CXR and IU X-ray data, respectively. This performance boost is also observed in unseen modality, CT scans, as the model performed 19.46% better than the baseline model. The model also surpassed the domain expert's accuracy in the MIMIC-CXR dataset by 1.67%. Notably, among the subsets (N=21) of the test set where a clinician did not achieve the correct conclusion, the LLaVA ensemble mode correctly identified 71.4% of these cases. However, all models performed poorly in identifying mistake types, underscoring the difficulty of the COMPLEX level. This study marks a promising step toward utilizing multimodal LLMs to enhance diagnostic accuracy in radiology. The ensemble model demonstrated comparable performance to clinicians, even capturing errors overlooked by humans.