Leveraging large language models for structured information extraction from pathology reports
作者: Jeya Balaji Balasubramanian, Daniel Adams, Ioannis Roxanis, Amy Berrington de Gonzalez, Penny Coulson, Jonas S. Almeida, Montserrat García-Closas
分类: cs.CL, cs.LG
发布日期: 2025-02-14
备注: 29 pages, 6 figures
期刊: J. Pathol. Inform. 19 (2025) 100521
DOI: 10.1016/j.jpi.2025.100521
💡 一句话要点
利用大型语言模型从病理报告中提取结构化信息
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 病理报告 结构化信息提取 零样本学习 自然语言处理
📋 核心要点
- 从病理报告中手动提取结构化信息成本高昂且耗时,限制了临床研究的数据可及性。
- 论文提出利用大型语言模型(LLM)进行零样本提示,实现病理报告信息的自动结构化提取。
- 实验结果表明,Llama 3.1 405B和GPT-4o的提取准确率与人工注释员相当,验证了方法的有效性。
📝 摘要(中文)
背景:从非结构化组织病理学报告中提取结构化信息,有助于临床研究的数据可访问性。专家手动提取耗时且昂贵,限制了可扩展性。大型语言模型(LLM)通过零样本提示提供高效的自动提取,只需要自然语言指令,无需标记数据或训练。我们评估了LLM在从乳腺癌组织病理学报告中提取结构化信息方面的准确性,并与训练有素的人工注释员的手动提取进行了比较。方法:我们开发了医学报告信息提取器,这是一个利用LLM进行自动提取的Web应用程序。我们开发了一个黄金标准提取数据集,以评估人工注释员以及包括GPT-4o(一种领先的专有模型)和Llama 3模型系列在内的五个LLM,后者允许自托管以保护数据隐私。我们的评估涉及来自Breast Cancer Now (BCN) Generations Study的111份组织病理学报告,提取了研究数据字典中指定的51个病理特征。结果:针对黄金标准数据集的评估表明,Llama 3.1 405B(94.7%的准确率)和GPT-4o(96.1%)都达到了与人工注释员(95.4%;p = 0.146和p = 0.106,分别)相当的提取准确率。虽然Llama 3.1 70B(91.6%)的性能低于人工准确率(p <0.001),但其降低的计算需求使其成为自托管的可行选择。结论:我们开发了一个开源工具,用于结构化信息提取,非程序员可以使用自然语言对其进行定制。其模块化设计使其能够重复用于各种提取任务,从而生成来自非结构化文本报告的标准化、结构化数据,以通过改进的可访问性和互操作性来促进分析。
🔬 方法详解
问题定义:论文旨在解决从非结构化病理报告中自动提取结构化信息的问题。现有的人工提取方法耗时、成本高,且难以扩展,无法满足大规模临床研究的需求。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和生成能力,通过零样本提示的方式,直接从病理报告文本中提取目标信息。这种方法无需标注数据进行训练,降低了开发成本和时间。
技术框架:论文构建了一个名为Medical Report Information Extractor的Web应用程序。该应用的核心是利用LLM进行信息提取的模块。用户通过自然语言指令定义需要提取的信息,LLM根据指令从病理报告中提取相应内容,并将其结构化输出。整体流程包括:输入病理报告文本、定义提取目标、LLM进行信息提取、输出结构化数据。
关键创新:论文的关键创新在于将大型语言模型应用于病理报告的结构化信息提取,并实现了零样本学习。与传统的基于规则或机器学习的方法相比,该方法无需大量标注数据,具有更高的灵活性和可扩展性。此外,该工具的模块化设计允许非程序员通过自然语言进行定制,降低了使用门槛。
关键设计:论文使用了包括GPT-4o和Llama 3系列在内的多个LLM进行实验,并针对乳腺癌病理报告的51个病理特征进行了提取。实验中,通过与人工标注的黄金标准数据集进行比较,评估了不同LLM的提取准确率。Llama 3.1 70B虽然准确率略低于人工,但其较低的计算需求使其成为自托管的可行选择。
📊 实验亮点
实验结果表明,Llama 3.1 405B (94.7% 准确率) 和 GPT-4o (96.1% 准确率) 在病理报告结构化信息提取方面达到了与人工注释员 (95.4% 准确率) 相当的水平。Llama 3.1 70B (91.6% 准确率) 虽然略低于人工,但其较低的计算需求使其成为自托管的理想选择。
🎯 应用场景
该研究成果可应用于临床研究、医疗数据分析、疾病诊断辅助等领域。通过自动提取病理报告中的结构化信息,可以大大提高数据利用效率,加速临床研究进程,并为医生提供更全面的决策支持。未来,该技术有望推广到其他类型的医疗文本报告,实现更广泛的应用。
📄 摘要(原文)
Background: Structured information extraction from unstructured histopathology reports facilitates data accessibility for clinical research. Manual extraction by experts is time-consuming and expensive, limiting scalability. Large language models (LLMs) offer efficient automated extraction through zero-shot prompting, requiring only natural language instructions without labeled data or training. We evaluate LLMs' accuracy in extracting structured information from breast cancer histopathology reports, compared to manual extraction by a trained human annotator. Methods: We developed the Medical Report Information Extractor, a web application leveraging LLMs for automated extraction. We developed a gold standard extraction dataset to evaluate the human annotator alongside five LLMs including GPT-4o, a leading proprietary model, and the Llama 3 model family, which allows self-hosting for data privacy. Our assessment involved 111 histopathology reports from the Breast Cancer Now (BCN) Generations Study, extracting 51 pathology features specified in the study's data dictionary. Results: Evaluation against the gold standard dataset showed that both Llama 3.1 405B (94.7% accuracy) and GPT-4o (96.1%) achieved extraction accuracy comparable to the human annotator (95.4%; p = 0.146 and p = 0.106, respectively). While Llama 3.1 70B (91.6%) performed below human accuracy (p <0.001), its reduced computational requirements make it a viable option for self-hosting. Conclusion: We developed an open-source tool for structured information extraction that can be customized by non-programmers using natural language. Its modular design enables reuse for various extraction tasks, producing standardized, structured data from unstructured text reports to facilitate analytics through improved accessibility and interoperability.