Generative Large Language Models Trained for Detecting Errors in Radiology Reports
作者: Cong Sun, Kurt Teichman, Yiliang Zhou, Brian Critelli, David Nauheim, Graham Keir, Xindi Wang, Judy Zhong, Adam E Flanders, George Shih, Yifan Peng
分类: cs.CL, cs.AI
发布日期: 2025-04-06
💡 一句话要点
利用生成式大语言模型提升放射科报告的错误检测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射科报告 错误检测 大型语言模型 GPT-4 Llama-3 合成数据 医学文本处理
📋 核心要点
- 放射科报告错误可能导致误诊和治疗延误,现有方法在自动化错误检测方面存在局限性。
- 利用GPT-4生成包含各类错误的合成放射科报告,并结合真实数据,构建大规模数据集用于模型训练。
- 通过微调Llama-3等大型语言模型,显著提升了放射科报告中否定、左右、时间间隔变化和转录错误的检测性能。
📝 摘要(中文)
本研究构建了一个包含两部分的数据集。第一部分包含1656份由GPT-4生成的合成胸部放射科报告,其中828份无错误,828份包含错误。第二部分包含614份报告:307份来自MIMIC-CXR数据库的2011年至2016年间的无错误报告,以及基于这些MIMIC-CXR报告由GPT-4生成的307份包含错误的合成报告。所有错误被分为四类:否定错误、左右错误、时间间隔变化错误和转录错误。然后,使用零样本提示、少样本提示或微调策略对Llama-3、GPT-4和BiomedBERT等模型进行了优化。最后,使用F1分数、95%置信区间(CI)和配对样本t检验在构建的数据集上评估了这些模型的性能,并由放射科医生进一步评估了预测结果。在使用零样本提示时,微调后的Llama-3-70B-Instruct模型取得了最佳性能,其F1分数分别为:否定错误0.769,左右错误0.772,时间间隔变化错误0.750,转录错误0.828,总体0.780。在真实世界评估阶段,两位放射科医生审查了模型输出的200份随机选择的报告。其中,99份被两位放射科医生确认为包含模型检测到的错误,163份被至少一位放射科医生确认为包含模型检测到的错误。经过合成和MIMIC-CXR放射科报告微调的生成式LLM极大地提高了放射科报告中的错误检测能力。
🔬 方法详解
问题定义:放射科报告中存在的各类错误,如否定错误、左右错误、时间间隔变化错误和转录错误,可能对患者的诊断和治疗产生不利影响。现有的错误检测方法,例如基于规则的方法或传统的机器学习方法,在处理复杂语言和上下文信息方面存在局限性,难以达到令人满意的准确率和召回率。
核心思路:本研究的核心思路是利用生成式大型语言模型(LLM)强大的语言理解和生成能力,通过在包含错误标注的数据集上进行微调,使模型能够有效地识别和纠正放射科报告中的各类错误。通过合成数据增强,可以克服真实数据标注成本高昂的问题,并覆盖更多类型的错误。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:利用GPT-4生成包含各类错误的合成放射科报告,并结合MIMIC-CXR数据库中的真实报告,构建一个包含错误和无错误报告的大规模数据集。2) 模型选择与微调:选择Llama-3、GPT-4和BiomedBERT等预训练LLM,并使用零样本提示、少样本提示或微调策略在构建的数据集上进行优化。3) 性能评估:使用F1分数、95%置信区间和配对样本t检验评估模型的性能,并由放射科医生对预测结果进行进一步评估。
关键创新:该研究的关键创新在于:1) 利用生成式LLM生成合成数据,有效解决了放射科报告错误检测领域数据稀缺的问题。2) 通过微调Llama-3等先进的LLM,显著提升了放射科报告中各类错误的检测性能。3) 结合合成数据和真实数据进行训练,提高了模型的泛化能力和鲁棒性。
关键设计:在数据集构建方面,精心设计了GPT-4的提示语,以确保生成的合成数据包含各种类型的错误,并且与真实报告具有一定的相似性。在模型微调方面,尝试了不同的微调策略,包括零样本提示、少样本提示和全参数微调,并选择了性能最佳的Llama-3-70B-Instruct模型。在评估方面,采用了F1分数等客观指标,并结合放射科医生的主观评估,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过微调的Llama-3-70B-Instruct模型在放射科报告错误检测方面取得了显著的性能提升。该模型在使用零样本提示时,在否定错误、左右错误、时间间隔变化错误和转录错误上的F1分数分别达到0.769、0.772、0.750和0.828,总体F1分数为0.780。在真实世界评估中,两位放射科医生确认模型检测到的错误数量分别为99份和163份。
🎯 应用场景
该研究成果可应用于放射科报告的自动审核和质量控制,辅助放射科医生减少错误,提高诊断准确性和效率。此外,该方法也可推广到其他医学文本的错误检测和纠正,具有广泛的应用前景。未来,可进一步研究如何利用LLM生成更逼真的合成数据,以及如何将该技术集成到临床工作流程中。
📄 摘要(原文)
In this retrospective study, a dataset was constructed with two parts. The first part included 1,656 synthetic chest radiology reports generated by GPT-4 using specified prompts, with 828 being error-free synthetic reports and 828 containing errors. The second part included 614 reports: 307 error-free reports between 2011 and 2016 from the MIMIC-CXR database and 307 corresponding synthetic reports with errors generated by GPT-4 on the basis of these MIMIC-CXR reports and specified prompts. All errors were categorized into four types: negation, left/right, interval change, and transcription errors. Then, several models, including Llama-3, GPT-4, and BiomedBERT, were refined using zero-shot prompting, few-shot prompting, or fine-tuning strategies. Finally, the performance of these models was evaluated using the F1 score, 95\% confidence interval (CI) and paired-sample t-tests on our constructed dataset, with the prediction results further assessed by radiologists. Using zero-shot prompting, the fine-tuned Llama-3-70B-Instruct model achieved the best performance with the following F1 scores: 0.769 for negation errors, 0.772 for left/right errors, 0.750 for interval change errors, 0.828 for transcription errors, and 0.780 overall. In the real-world evaluation phase, two radiologists reviewed 200 randomly selected reports output by the model. Of these, 99 were confirmed to contain errors detected by the models by both radiologists, and 163 were confirmed to contain model-detected errors by at least one radiologist. Generative LLMs, fine-tuned on synthetic and MIMIC-CXR radiology reports, greatly enhanced error detection in radiology reports.