Large Multimodal Model based Standardisation of Pathology Reports with Confidence and their Prognostic Significance

📄 arXiv: 2405.02040v1 📥 PDF

作者: Ethar Alzaid, Gabriele Pergola, Harriet Evans, David Snead, Fayyaz Minhas

分类: cs.CL

发布日期: 2024-05-03

备注: 19 pages, 6 figures

期刊: J Pathol Clin Res, 10: e70010 (2024)

DOI: 10.1002/2056-4538.70010


💡 一句话要点

提出基于大模型的多模态病理报告标准化框架,并评估其预后意义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 病理报告 信息提取 大型语言模型 临床决策

📋 核心要点

  1. 现有病理报告多为非结构化自由文本,信息难以有效利用,阻碍了临床应用和研究。
  2. 利用大型多模态模型,从病理报告图像中自动提取信息,并评估提取结果的置信度。
  3. 实验证明,提取的结构化数据具有显著的预后价值,可用于患者分层,辅助临床决策。

📝 摘要(中文)

病理报告包含丰富的临床和病理细节,但通常以自由文本格式呈现。这种非结构化特性严重限制了其内容的可访问性。本文提出了一种基于大型多模态模型(LMM)的实用方法,用于自动从病理报告的扫描图像中提取信息,旨在生成标准化的报告,其中包含不同字段的值以及提取字段准确性的置信度估计。该方法克服了现有方法无法为提取字段分配置信度分数的局限性,从而提高了实际应用价值。该框架采用两阶段提示LMM进行信息提取和验证,可推广到来自多个医疗中心的文本报告以及传统病理报告的扫描图像。实验表明,估计的置信度是提取信息准确性的有效指标,可用于选择准确提取的字段。此外,研究还表明,来自病理报告的结构化和非结构化数据具有重要的预后意义,自动提取的字段值对患者分层具有显著的预后价值。该框架可通过URL进行评估。

🔬 方法详解

问题定义:病理报告通常以非结构化的自由文本形式存在,这使得从报告中提取关键信息变得困难,阻碍了数据的有效利用和分析。现有的信息提取方法通常无法提供提取信息的置信度评估,限制了其在实际临床环境中的应用。因此,需要一种能够自动提取病理报告信息并提供置信度评估的方法,以提高数据质量和可用性。

核心思路:本文的核心思路是利用大型多模态模型(LMM)的强大能力,直接从病理报告的图像中提取信息,并设计一个两阶段的提示框架来提高提取的准确性和可靠性。通过对提取的信息进行置信度评估,可以筛选出高质量的数据,从而提高后续分析的准确性。这种方法避免了传统方法中需要手动标注或依赖特定模板的局限性。

技术框架:该框架主要包含两个阶段:信息提取阶段和信息验证阶段。在信息提取阶段,LMM接收病理报告的图像作为输入,并根据预定义的提示提取关键字段的值。在信息验证阶段,LMM再次接收提取的字段值和原始图像,并评估提取的置信度。整个流程旨在自动化地将非结构化的病理报告转换为结构化的数据,并提供每个字段提取的置信度评分。

关键创新:该方法最重要的创新点在于它能够为提取的每个字段提供置信度评估。这使得用户可以根据置信度选择高质量的数据,从而提高后续分析的准确性和可靠性。与现有方法相比,该方法不需要手动标注或依赖特定模板,具有更强的通用性和可扩展性。此外,该方法利用LMM直接从图像中提取信息,避免了OCR等中间步骤可能引入的错误。

关键设计:该框架的关键设计包括两阶段的提示策略。第一阶段的提示旨在引导LMM提取关键字段的值,第二阶段的提示旨在评估提取的置信度。具体的提示内容需要根据病理报告的格式和内容进行设计。此外,该框架还使用了预训练的LMM,并对其进行了微调,以提高其在病理报告信息提取任务上的性能。置信度评估的具体方法未知,可能涉及LMM输出概率的分析或其他置信度估计技术。

📊 实验亮点

实验结果表明,该框架能够有效地从病理报告图像中提取信息,并提供准确的置信度评估。提取的结构化数据具有显著的预后价值,可用于患者分层。具体性能数据未知,但研究强调了置信度评估在提高数据质量和可用性方面的重要性。

🎯 应用场景

该研究成果可应用于病理报告的自动标准化和结构化,提高病理数据的可访问性和利用率。这有助于临床医生更快速地获取关键信息,辅助诊断和治疗决策。此外,结构化的病理数据可用于构建大型数据库,支持疾病研究、药物开发和患者分层管理,具有广阔的应用前景。

📄 摘要(原文)

Pathology reports are rich in clinical and pathological details but are often presented in free-text format. The unstructured nature of these reports presents a significant challenge limiting the accessibility of their content. In this work, we present a practical approach based on the use of large multimodal models (LMMs) for automatically extracting information from scanned images of pathology reports with the goal of generating a standardised report specifying the value of different fields along with estimated confidence about the accuracy of the extracted fields. The proposed approach overcomes limitations of existing methods which do not assign confidence scores to extracted fields limiting their practical use. The proposed framework uses two stages of prompting a Large Multimodal Model (LMM) for information extraction and validation. The framework generalises to textual reports from multiple medical centres as well as scanned images of legacy pathology reports. We show that the estimated confidence is an effective indicator of the accuracy of the extracted information that can be used to select only accurately extracted fields. We also show the prognostic significance of structured and unstructured data from pathology reports and show that the automatically extracted field values significant prognostic value for patient stratification. The framework is available for evaluation via the URL: https://labieb.dcs.warwick.ac.uk/.