Development and Validation of a Large Language Model for Generating Fully-Structured Radiology Reports

📄 arXiv: 2409.18319v3 📥 PDF

作者: Chuang Niu, Md Sayed Tanveer, Md Zabirul Islam, Parisa Kaviani, Qing Lyu, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang

分类: cs.AI, cs.CL

发布日期: 2024-09-26 (更新: 2025-09-25)


💡 一句话要点

提出动态模板约束解码的LLM,用于生成高质量、结构化的肺癌筛查报告。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 结构化报告生成 肺癌筛查 动态模板约束解码 医学影像报告 自然语言处理

📋 核心要点

  1. 现有LLM在生成结构化报告时存在格式错误、内容幻觉和隐私泄露等问题,限制了其在医学领域的应用。
  2. 论文提出了一种动态模板约束解码方法,通过标准化模板引导LLM生成结构化报告,从而提高准确性和可靠性。
  3. 实验结果表明,该方法在跨机构数据集上取得了显著的性能提升,F1值达到97%,优于现有开源模型和GPT-4o。

📝 摘要(中文)

当前的大语言模型在生成完全结构化的报告时面临格式错误、内容幻觉以及上传数据到外部服务器时的隐私泄露问题。本研究旨在开发一个开源、准确的LLM,用于从不同机构的自由文本报告中创建完全结构化和标准化的肺癌筛查(LCS)报告,并展示其在自动统计分析和个体肺结节检索中的效用。该回顾性研究获得了伦理委员会批准,使用了来自两个机构的5442份去标识化的低剂量CT LCS放射报告。我们通过标注500对自由文本和完全结构化的放射报告构建了两个评估数据集,以及一个从2021年1月到2023年12月的大规模连续数据集。两位放射科医生创建了一个标准化模板,用于记录LCS的27个肺结节特征。我们设计了一种动态模板约束解码方法,以增强现有LLM从自由文本放射报告中创建完全结构化报告的能力。使用连续的结构化报告,我们实现了自动描述性统计分析和一个结节检索原型。我们用于创建完全结构化报告的最佳LLM在跨机构数据集上实现了约97%的F1分数,且没有格式错误或内容幻觉。我们的方法始终将最佳开源LLM的性能提高了高达10.42%,并且优于GPT-4o 17.19%。自动导出的统计分布与先前关于衰减、位置、大小、稳定性和Lung-RADS的发现一致。具有结构化报告的检索系统允许灵活的结节级别搜索和复杂的统计分析。我们开发的软件可公开用于本地部署和进一步研究。

🔬 方法详解

问题定义:现有的大语言模型在生成结构化放射报告时,容易出现格式错误、内容幻觉,并且将数据上传到外部服务器存在隐私泄露的风险。这些问题限制了LLM在医学领域的应用,尤其是在需要高度准确性和数据安全性的肺癌筛查报告生成方面。

核心思路:论文的核心思路是利用动态模板约束解码方法,引导LLM生成符合预定义结构的放射报告。通过标准化模板,约束LLM的输出,减少格式错误和内容幻觉的发生,同时保证报告的结构化和标准化,便于后续的统计分析和信息检索。

技术框架:整体框架包括数据准备、模板设计、模型训练和评估四个主要阶段。首先,收集并去标识化放射报告数据,然后由放射科医生设计标准化模板,定义报告的结构和字段。接着,使用动态模板约束解码方法训练LLM,使其能够根据自由文本报告生成结构化报告。最后,使用评估数据集评估模型的性能,并与现有方法进行比较。

关键创新:最重要的技术创新点在于动态模板约束解码方法。该方法通过在解码过程中引入模板约束,强制LLM按照预定义的结构生成报告,从而避免了格式错误和内容幻觉。与传统的自由文本生成方法相比,该方法能够生成更加准确和可靠的结构化报告。

关键设计:动态模板约束解码方法的关键设计包括:1) 标准化模板的设计,需要充分考虑放射报告的结构和内容,定义清晰的字段和取值范围;2) 解码过程中的约束策略,需要有效地引导LLM按照模板生成报告,同时保持一定的灵活性,以适应不同风格的自由文本报告;3) 损失函数的设计,需要综合考虑生成报告的准确性和结构化程度,以优化模型的训练效果。

📊 实验亮点

实验结果表明,该方法在跨机构数据集上取得了显著的性能提升,F1值达到约97%,且没有格式错误或内容幻觉。与最佳开源LLM相比,性能提升高达10.42%,并且优于GPT-4o 17.19%。自动生成的统计分布与既往研究结果一致,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于肺癌筛查报告的自动生成,提高报告的标准化程度和效率,降低人工成本。结构化报告便于进行大规模的统计分析和个体肺结节检索,有助于临床医生进行诊断和治疗决策。该技术还可推广到其他医学影像报告的生成,具有广泛的应用前景。

📄 摘要(原文)

Current LLMs for creating fully-structured reports face the challenges of formatting errors, content hallucinations, and privacy leakage issues when uploading data to external servers.We aim to develop an open-source, accurate LLM for creating fully-structured and standardized LCS reports from varying free-text reports across institutions and demonstrate its utility in automatic statistical analysis and individual lung nodule retrieval. With IRB approvals, our retrospective study included 5,442 de-identified LDCT LCS radiology reports from two institutions. We constructed two evaluation datasets by labeling 500 pairs of free-text and fully-structured radiology reports and one large-scale consecutive dataset from January 2021 to December 2023. Two radiologists created a standardized template for recording 27 lung nodule features on LCS. We designed a dynamic-template-constrained decoding method to enhance existing LLMs for creating fully-structured reports from free-text radiology reports. Using consecutive structured reports, we automated descriptive statistical analyses and a nodule retrieval prototype. Our best LLM for creating fully-structured reports achieved high performance on cross-institutional datasets with an F1 score of about 97%, with neither formatting errors nor content hallucinations. Our method consistently improved the best open-source LLMs by up to 10.42%, and outperformed GPT-4o by 17.19%. The automatically derived statistical distributions were consistent with prior findings regarding attenuation, location, size, stability, and Lung-RADS. The retrieval system with structured reports allowed flexible nodule-level search and complex statistical analysis. Our developed software is publicly available for local deployment and further research.