The current status of large language models in summarizing radiology report impressions

📄 arXiv: 2406.02134v1 📥 PDF

作者: Danqing Hu, Shanyuan Zhang, Qing Liu, Xiaofeng Zhu, Bing Liu

分类: cs.CL

发布日期: 2024-06-04

DOI: 10.2196/65547


💡 一句话要点

评估大型语言模型在放射报告印象总结中的能力与局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 放射报告 印象总结 自然语言处理 医学文本处理

📋 核心要点

  1. 现有方法在放射报告印象总结方面效率较低,且对专业知识依赖性强,大型语言模型能否有效解决此问题尚不明确。
  2. 本研究探索了八种大型语言模型在放射报告印象总结任务中的能力,通过构建不同类型的提示,评估其生成印象总结的质量。
  3. 实验结果表明,大型语言模型在完整性和正确性方面表现尚可,但在简洁性和逼真性方面仍有提升空间,无法完全替代放射科医生。

📝 摘要(中文)

本研究旨在评估大型语言模型(LLMs),如ChatGPT,在放射报告印象总结任务中的有效性。研究收集了北京大学肿瘤医院的CT、PET-CT和超声报告,并利用报告中的发现构建了零样本、单样本和三样本提示,以生成印象总结。除了自动定量评估指标外,还定义了完整性、正确性、简洁性、逼真性和可替代性五个主观评价指标,由两位胸外科医生和一位放射科医生对生成的印象总结进行评估。实验结果表明,生成的印象总结与参考总结之间存在差距。尽管LLMs在完整性和正确性方面表现出相当的性能,但在简洁性和逼真性方面的得分不高。少量样本提示可以提高LLMs在简洁性和逼真性方面的性能,但临床医生仍然认为LLMs无法取代放射科医生在总结放射印象方面的作用。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在放射报告印象总结任务中的表现。现有方法依赖人工,效率低且易出错,而LLMs在文本生成方面展现出潜力,但其在医学领域的应用效果尚待考察。现有方法的痛点在于缺乏自动化和对专业知识的依赖。

核心思路:核心思路是利用LLMs强大的文本生成能力,通过构建不同类型的提示(零样本、单样本、三样本),引导LLMs从放射报告的发现部分生成相应的印象总结。通过对比生成的总结与参考总结,评估LLMs的性能。

技术框架:整体框架包括数据收集、提示构建、LLM推理和结果评估四个主要阶段。首先,从北京大学肿瘤医院收集CT、PET-CT和超声报告。然后,利用报告中的发现部分构建不同类型的提示。接着,使用八种LLMs(具体型号未知)进行推理,生成印象总结。最后,通过自动定量评估指标和人工主观评价指标对生成的总结进行评估。

关键创新:关键创新在于将LLMs应用于放射报告印象总结这一特定医学领域,并设计了包含完整性、正确性、简洁性、逼真性和可替代性五个维度的主观评价指标,更全面地评估LLMs的性能。此外,研究还探索了不同类型的提示对LLMs性能的影响。

关键设计:研究的关键设计包括:1) 收集三种不同类型的放射报告,以增加研究的泛化性;2) 构建零样本、单样本和三样本提示,以探索不同提示策略对LLMs性能的影响;3) 定义五个主观评价指标,并由多位临床医生进行评估,以保证评估的客观性和可靠性。具体参数设置、损失函数和网络结构等技术细节在论文中未明确说明,属于LLMs本身的内部实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在放射报告印象总结任务中,在完整性和正确性方面表现出与参考总结相当的性能。少量样本提示能够提升LLMs在简洁性和逼真性方面的表现。然而,临床医生认为LLMs目前尚无法完全取代放射科医生进行印象总结,表明LLMs在该领域仍有提升空间。具体性能数据未在摘要中给出。

🎯 应用场景

该研究成果可应用于辅助放射科医生进行报告总结,提高工作效率,减少人为错误。未来,通过进一步优化模型和提示策略,有望实现放射报告的自动总结,减轻医生的工作负担,并为患者提供更快速的诊断结果。该技术还可扩展到其他医学文本的自动摘要生成。

📄 摘要(原文)

Large language models (LLMs) like ChatGPT show excellent capabilities in various natural language processing tasks, especially for text generation. The effectiveness of LLMs in summarizing radiology report impressions remains unclear. In this study, we explore the capability of eight LLMs on the radiology report impression summarization. Three types of radiology reports, i.e., CT, PET-CT, and Ultrasound reports, are collected from Peking University Cancer Hospital and Institute. We use the report findings to construct the zero-shot, one-shot, and three-shot prompts with complete example reports to generate the impressions. Besides the automatic quantitative evaluation metrics, we define five human evaluation metrics, i.e., completeness, correctness, conciseness, verisimilitude, and replaceability, to evaluate the semantics of the generated impressions. Two thoracic surgeons (ZSY and LB) and one radiologist (LQ) compare the generated impressions with the reference impressions and score each impression under the five human evaluation metrics. Experimental results show that there is a gap between the generated impressions and reference impressions. Although the LLMs achieve comparable performance in completeness and correctness, the conciseness and verisimilitude scores are not very high. Using few-shot prompts can improve the LLMs' performance in conciseness and verisimilitude, but the clinicians still think the LLMs can not replace the radiologists in summarizing the radiology impressions.