Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models

作者: Hieu Nghiem, Tuan-Dung Le, Suhao Chen, Thanh Thieu, Andrew Gin, Ellie Phuong Nguyen, Dursun Delen, Johnson Thomas, Jivan Lamichhane, Zhuqi Miao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-03-30

💡 一句话要点

评估临床大语言模型在病史实体抽取中的性能，并分析文本特征对模型准确率的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 临床大语言模型 病史实体抽取 电子健康记录 自然语言处理 医学信息学

📋 核心要点

现有方法难以高效地从临床文本中提取病史实体，影响了电子健康记录的结构化和下游任务。
本研究微调多个临床大语言模型，并探索整合基本医学实体信息以提升病史实体识别性能。
实验表明，微调后的临床大语言模型能显著减少提取时间，但长实体和非医学词汇仍构成挑战。

📝 摘要（中文）

本研究旨在评估临床大语言模型(cLLMs)在识别与患者主诉(CC)、现病史(HPI)以及既往史、家族史和社会史(PFSH)相关的病史实体(MHEs)方面的性能。通过将自由文本的临床记录结构化为标准化的电子健康记录(EHRs)，可以简化后续的连续性护理、医学编码和质量指标等任务。研究对来自MTSamples存储库的61份门诊临床记录中的1449个MHEs进行了标注，并微调了七个最先进的cLLMs来识别这些实体。此外，还评估了通过整合问题、测试、治疗和其他基本医学实体(BMEs)来增强模型性能的效果。并将这些模型的性能与GPT-4o在零样本设置下进行了比较。为了进一步理解影响模型准确率的文本特征，进行了误差分析，重点关注记录长度、实体长度和分段。结果表明，cLLMs有潜力将提取MHEs所需的时间减少20%以上。然而，由于许多MHEs具有多义性以及经常涉及非医学词汇，因此检测许多类型的MHEs仍然具有挑战性。经过广泛训练的GatorTron和GatorTronS表现出最高的性能。整合预先识别的BME信息可以提高某些实体的模型性能。关于文本特征对模型性能的影响，发现较长的实体更难识别，记录长度与较高的错误率没有相关性，并且具有标题的组织良好的段落有利于提取。

🔬 方法详解

问题定义：论文旨在解决从临床文本中自动提取病史实体（MHEs）的问题，这些实体与患者的主诉（CC）、现病史（HPI）以及既往史、家族史和社会史（PFSH）相关。现有方法，如人工提取，耗时且容易出错。现有的自动化方法可能无法充分利用临床文本的上下文信息，并且难以处理医学术语的多义性和非医学词汇的干扰。

核心思路：论文的核心思路是利用预训练的临床大语言模型（cLLMs）的强大语言理解能力，通过微调使其能够准确识别和提取临床文本中的MHEs。此外，论文还探索了通过整合预先识别的基本医学实体（BMEs）来增强模型性能的方法。这种方法旨在利用BMEs作为上下文信息，帮助模型更好地区分不同类型的MHEs。

技术框架：整体框架包括以下几个主要步骤：1) 数据准备：收集和标注包含MHEs的临床文本数据。2) 模型选择：选择多个预训练的cLLMs作为基础模型。3) 模型微调：使用标注的数据对cLLMs进行微调，使其能够识别和提取MHEs。4) BME整合：将预先识别的BMEs作为输入特征整合到模型中。5) 性能评估：使用标准指标（如精确率、召回率和F1值）评估模型的性能。

关键创新：论文的关键创新在于：1) 系统性地比较了多个最先进的cLLMs在病史实体抽取任务中的性能。2) 探索了通过整合BMEs来增强模型性能的方法。3) 对影响模型性能的文本特征进行了深入的误差分析，为未来的研究提供了指导。

关键设计：论文的关键设计包括：1) 选择了多个具有代表性的cLLMs，包括GatorTron、GatorTronS等。2) 使用了标准的微调方法，并针对不同的cLLMs进行了参数调整。3) 使用了标准的评估指标，并进行了统计显著性检验。4) 在误差分析中，考虑了记录长度、实体长度和分段等多个文本特征。

📊 实验亮点

实验结果表明，微调后的临床大语言模型在病史实体抽取任务中表现出潜力，能够将提取时间减少20%以上。GatorTron和GatorTronS模型表现最佳。整合预先识别的基本医学实体(BMEs)可以提高模型性能。误差分析表明，较长的实体更难识别，而组织良好的分段有利于提取。

🎯 应用场景

该研究成果可应用于电子健康记录(EHR)的自动化构建，提高临床数据的结构化程度，从而提升医疗质量、降低医疗成本。通过自动提取病史信息，可以辅助医生进行诊断和治疗决策，并支持医学研究和公共卫生监测。未来，该技术有望与智能问诊系统结合，实现更高效、个性化的医疗服务。

📄 摘要（原文）

Extracting medical history entities (MHEs) related to a patient's chief complaint (CC), history of present illness (HPI), and past, family, and social history (PFSH) helps structure free-text clinical notes into standardized EHRs, streamlining downstream tasks like continuity of care, medical coding, and quality metrics. Fine-tuned clinical large language models (cLLMs) can assist in this process while ensuring the protection of sensitive data via on-premises deployment. This study evaluates the performance of cLLMs in recognizing CC/HPI/PFSH-related MHEs and examines how note characteristics impact model accuracy. We annotated 1,449 MHEs across 61 outpatient-related clinical notes from the MTSamples repository. To recognize these entities, we fine-tuned seven state-of-the-art cLLMs. Additionally, we assessed the models' performance when enhanced by integrating, problems, tests, treatments, and other basic medical entities (BMEs). We compared the performance of these models against GPT-4o in a zero-shot setting. To further understand the textual characteristics affecting model accuracy, we conducted an error analysis focused on note length, entity length, and segmentation. The cLLMs showed potential in reducing the time required for extracting MHEs by over 20%. However, detecting many types of MHEs remained challenging due to their polysemous nature and the frequent involvement of non-medical vocabulary. Fine-tuned GatorTron and GatorTronS, two of the most extensively trained cLLMs, demonstrated the highest performance. Integrating pre-identified BME information improved model performance for certain entities. Regarding the impact of textual characteristics on model performance, we found that longer entities were harder to identify, note length did not correlate with a higher error rate, and well-organized segments with headings are beneficial for the extraction.

Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理