A Large Language Model Based Pipeline for Review of Systems Entity Recognition from Clinical Notes

作者: Hieu Nghiem, Zhuqi Miao, Hemanth Reddy Singareddy, Jivan Lamichhane, Abdulaziz Ahmed, Johnson Thomas, Dursun Delen, William Paiva

分类: cs.CL

发布日期: 2025-05-31 (更新: 2025-12-27)

💡 一句话要点

提出基于大语言模型的临床笔记ROS实体识别流水线，提升医疗文档处理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 临床笔记分析 系统回顾实体识别 大语言模型 少样本学习 开源LLM 医疗信息处理 命名实体识别

📋 核心要点

现有临床笔记中系统回顾（ROS）实体提取依赖人工，效率低且成本高昂，亟需自动化解决方案。
提出一种基于大语言模型（LLM）的流水线，结合SecTag头部术语提取ROS部分，并利用少量样本学习识别ROS实体。
实验结果表明，开源LLM模型在ROS实体识别、否定检测和身体系统分类任务中表现出良好的性能，F1值最高可达0.952。

📝 摘要（中文）

本文旨在开发一种经济高效的、基于大语言模型（LLM）的流水线，用于从临床笔记中自动提取系统回顾（ROS）实体。该流水线首先使用SecTag头部术语从临床笔记中提取ROS部分，然后利用少量样本的LLM来识别ROS实体，如疾病或症状、其肯定/否定状态以及相关的身体系统。我们使用四个开源LLM模型实现了该流水线：llama3.1:8b、gemma3:27b、mistral3.1:24b和gpt-oss:20b。此外，我们还引入了一种新颖的归因算法，该算法将LLM识别的ROS实体与其源文本对齐，从而解决非精确和同义匹配问题。评估在包含340个带注释的ROS实体的24个普通医学笔记上进行。结果表明，开源LLM支持本地、经济高效的流水线，同时提供有希望的性能。较大的模型（如Gemma、Mistral和Gpt-oss）在流水线的三个实体识别任务（ROS实体提取、否定检测和身体系统分类）中表现出强大的性能（最高F1 score = 0.952）。通过归因算法，所有模型在关键性能指标上均显示出改进，包括更高的F1 score和准确性，以及更低的错误率。值得注意的是，较小的Llama模型也取得了有希望的结果，尽管仅使用了较大模型三分之一的VRAM。从应用角度来看，我们的流水线提供了一种可扩展的、本地可部署的解决方案，以减轻ROS文档负担。开源LLM为资源有限的医疗保健环境提供了一种实用的AI选择。从方法论上讲，我们新开发的算法有助于提高零样本和少样本LLM在命名实体识别中的准确性。

🔬 方法详解

问题定义：论文旨在解决从临床笔记中自动提取系统回顾（ROS）实体的问题。现有方法主要依赖人工标注和提取，效率低下且成本高昂。此外，临床笔记中存在大量的非结构化文本，使得传统的自然语言处理方法难以准确识别和提取ROS实体，尤其是在处理同义词、缩写和上下文依赖关系时。

核心思路：论文的核心思路是利用大语言模型（LLM）强大的文本理解和生成能力，结合少样本学习（few-shot learning）和一种新颖的归因算法，构建一个高效、准确的ROS实体提取流水线。通过少量标注数据引导LLM学习，降低了对大规模标注数据的依赖，同时归因算法解决了LLM生成结果与原始文本不完全匹配的问题。

技术框架：该流水线主要包含以下几个阶段：1) ROS Section Extraction: 使用SecTag头部术语从临床笔记中提取ROS部分。2) ROS Entity Extraction: 利用少量样本的LLM识别ROS实体，如疾病或症状。3) Negation Detection: 检测ROS实体的肯定/否定状态。4) Body System Classification: 将ROS实体分类到相关的身体系统。5) Attribution Algorithm: 将LLM识别的ROS实体与其源文本对齐。

关键创新：论文的关键创新在于：1) 提出了一种基于开源LLM的ROS实体提取流水线，降低了成本和部署难度。2) 引入了一种新颖的归因算法，该算法能够有效解决LLM生成结果与原始文本不完全匹配的问题，提高了实体识别的准确性。3) 验证了少量样本学习在临床文本实体识别中的有效性，降低了对大规模标注数据的需求。

关键设计：在LLM选择上，论文使用了llama3.1:8b、gemma3:27b、mistral3.1:24b和gpt-oss:20b等多个开源模型，并比较了它们的性能。归因算法的具体实现细节未知，但其核心思想是将LLM识别的实体与原始文本进行匹配，并根据匹配程度进行评分，选择最佳匹配结果。损失函数和网络结构等细节未在论文中详细描述，属于LLM模型本身的固有属性。

📊 实验亮点

实验结果表明，基于开源LLM的流水线在ROS实体识别任务中表现出良好的性能。较大的模型（如Gemma、Mistral和Gpt-oss）在ROS实体提取、否定检测和身体系统分类任务中取得了最高的F1 score = 0.952。引入归因算法后，所有模型的F1 score和准确性均得到提升，错误率降低。值得注意的是，较小的Llama模型也取得了有希望的结果，尽管仅使用了较大模型三分之一的VRAM。

🎯 应用场景

该研究成果可应用于医疗信息自动化处理，例如辅助医生进行病历分析、构建智能问诊系统、支持临床决策等。通过自动提取ROS实体，可以减轻医生的文档负担，提高工作效率，并为医疗机构节省成本。未来，该技术有望进一步扩展到其他类型的临床文本分析任务中，例如药物不良反应监测、疾病诊断等。

📄 摘要（原文）

Objective: Develop a cost-effective, large language model (LLM)-based pipeline for automatically extracting Review of Systems (ROS) entities from clinical notes. Materials and Methods: The pipeline extracts ROS section from the clinical note using SecTag header terminology, followed by few-shot LLMs to identify ROS entities such as diseases or symptoms, their positive/negative status and associated body systems. We implemented the pipeline using 4 open-source LLM models: llama3.1:8b, gemma3:27b, mistral3.1:24b and gpt-oss:20b. Additionally, we introduced a novel attribution algorithm that aligns LLM-identified ROS entities with their source text, addressing non-exact and synonymous matches. The evaluation was conducted on 24 general medicine notes containing 340 annotated ROS entities. Results: Open-source LLMs enable a local, cost-efficient pipeline while delivering promising performance. Larger models like Gemma, Mistral, and Gpt-oss demonstrate robust performance across three entity recognition tasks of the pipeline: ROS entity extraction, negation detection and body system classification (highest F1 score = 0.952). With the attribution algorithm, all models show improvements across key performance metrics, including higher F1 score and accuracy, along with lower error rate. Notably, the smaller Llama model also achieved promising results despite using only one-third the VRAM of larger models. Discussion and Conclusion: From an application perspective, our pipeline provides a scalable, locally deployable solution to easing the ROS documentation burden. Open-source LLMs offer a practical AI option for resource-limited healthcare settings. Methodologically, our newly developed algorithm facilitates accuracy improvements for zero- and few-shot LLMs in named entity recognition.

A Large Language Model Based Pipeline for Review of Systems Entity Recognition from Clinical Notes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理