Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
作者: Yan Hu, Xu Zuo, Yujia Zhou, Xueqing Peng, Jimin Huang, Vipina K. Keloth, Vincent J. Zhang, Ruey-Ling Weng, Qingyu Chen, Xiaoqian Jiang, Kirk E. Roberts, Hua Xu
分类: cs.CL
发布日期: 2024-11-15 (更新: 2025-01-07)
💡 一句话要点
评估LLM在临床文本信息抽取中的应用:性能、资源与实用性分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 临床信息抽取 大型语言模型 命名实体识别 关系抽取 指令微调 LLaMA BERT
📋 核心要点
- 临床信息抽取任务至关重要,但现有方法在处理复杂临床文本时存在局限性。
- 论文探索了使用指令微调的LLaMA模型进行临床NER和RE任务,旨在提升性能和泛化能力。
- 实验表明,LLaMA模型在性能上优于BERT,但在计算资源和吞吐量方面存在劣势。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在临床自然语言处理(NLP)中信息抽取(IE)任务上的表现。通过使用来自四个来源(UT Physicians、MTSamples、MIMIC-III和i2b2)的1588份临床笔记,构建了一个包含4种临床实体和16种修饰词的标注语料库。研究对比了指令微调的LLaMA-2和LLaMA-3与BERT在命名实体识别(NER)和关系抽取(RE)任务上的性能、泛化能力、计算资源需求和吞吐量。结果表明,LLaMA模型在各个数据集上均优于BERT。在充足的训练数据下,LLaMA模型表现出适度的提升(NER提升1%,RE提升1.5-3.7%);在有限的训练数据下,提升更为显著。在未见过的i2b2数据上,LLaMA-3-70B在NER和RE任务上的F1值分别比BERT高7%和4%。然而,LLaMA模型需要更多的计算资源,运行速度慢至BERT的28倍。研究团队开发了一个名为“Kiwi”的临床IE软件包,其中包含两种模型,可在https://kiwi.clinicalnlp.org/获取。结论是,该研究首次开发并评估了一个使用开源LLM的综合临床IE系统。结果表明,LLaMA模型在临床NER和RE方面优于BERT,但计算成本更高,吞吐量更低。这些发现强调,在为临床IE应用选择LLM和传统深度学习方法时,应根据具体任务,同时考虑性能指标和实际因素,如可用的计算资源和预期用例场景。
🔬 方法详解
问题定义:论文旨在解决临床文本信息抽取中的命名实体识别(NER)和关系抽取(RE)问题。现有方法,如BERT,在处理特定领域的临床文本时,可能存在泛化能力不足的问题,尤其是在数据量有限的情况下。此外,现有方法可能无法充分利用临床文本中蕴含的丰富语义信息。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语言理解和生成能力,通过指令微调的方式,使其适应临床NER和RE任务。LLM能够更好地捕捉临床文本中的上下文信息和语义关系,从而提高信息抽取的准确性和泛化能力。同时,论文也关注了LLM在计算资源和吞吐量方面的实际限制。
技术框架:整体框架包括数据准备、模型选择与微调、实验评估和系统部署四个主要阶段。首先,收集并标注来自不同来源的临床文本数据,构建高质量的训练和测试数据集。然后,选择预训练的LLaMA模型,并使用指令微调技术,使其适应临床NER和RE任务。接着,在不同的数据集上评估LLaMA模型和BERT的性能,并比较它们的计算资源需求和吞吐量。最后,将训练好的模型集成到名为“Kiwi”的临床IE软件包中,方便用户使用。
关键创新:论文的关键创新在于系统性地评估了开源LLM(LLaMA)在临床NER和RE任务上的性能,并与传统的深度学习方法(BERT)进行了全面的比较。此外,论文还关注了LLM在计算资源和吞吐量方面的实际限制,为临床IE应用选择合适的模型提供了重要的参考依据。
关键设计:论文的关键设计包括:1) 使用指令微调技术,使LLaMA模型更好地适应临床NER和RE任务;2) 构建包含4种临床实体和16种修饰词的标注语料库,为模型训练提供高质量的数据;3) 比较LLaMA模型和BERT在不同数据集上的性能,并分析它们的泛化能力;4) 评估LLaMA模型和BERT的计算资源需求和吞吐量,为实际应用提供参考。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLaMA模型在临床NER和RE任务上优于BERT。在未见过的i2b2数据上,LLaMA-3-70B在NER和RE任务上的F1值分别比BERT高7%和4%。然而,LLaMA模型需要更多的计算资源,运行速度慢至BERT的28倍。这些结果表明,LLM在临床信息抽取方面具有潜力,但也需要考虑计算成本。
🎯 应用场景
该研究成果可应用于临床决策支持系统、电子病历管理、药物研发等领域。通过自动抽取临床文本中的关键信息,可以提高医生的工作效率,减少人为错误,并为患者提供更精准的治疗方案。未来,该技术有望进一步应用于个性化医疗和疾病预测。
📄 摘要(原文)
Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BERT in terms of performance, generalizability, computational resources, and throughput to BERT. Results: LLaMA models outperformed BERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented "Kiwi," a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.