A Study of Large Language Models for Patient Information Extraction: Model Architecture, Fine-Tuning Strategy, and Multi-task Instruction Tuning

📄 arXiv: 2509.04753v1 📥 PDF

作者: Cheng Peng, Xinyu Dong, Mengxian Lyu, Daniel Paredes, Yaoyun Zhang, Yonghui Wu

分类: cs.CL, cs.AI

发布日期: 2025-09-05


💡 一句话要点

研究大型语言模型在患者信息抽取中的应用,探索模型架构、微调策略和多任务指令调优。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 患者信息抽取 临床自然语言处理 多任务学习 参数高效微调

📋 核心要点

  1. 临床文本中抽取患者信息是关键任务,但现有方法在处理复杂性和泛化性方面存在挑战。
  2. 本研究探索不同LLM架构和微调策略,并提出多任务指令调优框架,提升信息抽取性能。
  3. 通过在多个数据集上的实验,验证了所提出方法在零样本和少样本学习中的有效性。

📝 摘要(中文)

本研究探讨了大型语言模型(LLM)在患者信息抽取中的有效性,重点关注LLM架构、微调策略和多任务指令调优技术,旨在开发稳健且泛化能力强的患者信息抽取系统。研究探索了LLM用于临床概念和关系抽取的关键概念,包括:(1)仅编码器或仅解码器LLM;(2)基于Prompt的参数高效微调(PEFT)算法;(3)基于少量样本学习性能的多任务指令调优。我们对一系列LLM进行了基准测试,包括基于编码器的LLM(BERT、GatorTron)和基于解码器的LLM(GatorTronGPT、Llama 3.1、GatorTronLlama),跨越五个数据集。我们比较了传统的全尺寸微调和基于Prompt的PEFT。我们探索了一个多任务指令调优框架,该框架结合了跨四个数据集的任务,以评估使用留一数据集策略的零样本和少样本学习性能。

🔬 方法详解

问题定义:论文旨在解决如何更有效地利用大型语言模型(LLM)从临床叙述文本中抽取重要的患者信息。现有方法可能在处理临床文本的复杂性、领域适应性以及计算效率方面存在不足,尤其是在数据稀缺的情况下,如何实现良好的泛化能力是一个挑战。

核心思路:论文的核心思路是通过系统地研究不同的LLM架构(编码器-解码器)、微调策略(全参数微调、参数高效微调PEFT)以及多任务指令调优技术,找到最适合患者信息抽取任务的LLM配置和训练方法。通过多任务学习,模型可以从多个相关任务中学习共享知识,从而提高在目标任务上的性能,尤其是在少样本学习场景下。

技术框架:整体框架包括三个主要部分:1)选择和比较不同的LLM架构,包括编码器-解码器模型;2)比较全参数微调和参数高效微调(PEFT)策略;3)构建一个多任务指令调优框架,该框架结合了多个临床信息抽取任务,并使用留一数据集策略评估模型的零样本和少样本学习能力。

关键创新:论文的关键创新在于对LLM在患者信息抽取任务中的应用进行了全面的实验研究,并比较了多种模型架构、微调策略和多任务学习方法的性能。特别是在多任务指令调优方面,通过结合多个相关任务,提高了模型在少样本学习场景下的泛化能力。

关键设计:论文的关键设计包括:1)选择了多种具有代表性的LLM,包括BERT、GatorTron、GatorTronGPT、Llama 3.1、GatorTronLlama等;2)采用了Prompt-based PEFT算法,以减少微调所需的计算资源;3)设计了一个多任务指令调优框架,该框架结合了多个临床信息抽取任务,并使用留一数据集策略评估模型的泛化能力。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

该研究对多种LLM架构(包括编码器和解码器模型)在五个数据集上进行了基准测试,比较了全尺寸微调和Prompt-based PEFT的性能。通过多任务指令调优,模型在零样本和少样本学习中表现出良好的泛化能力,但具体性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于临床决策支持系统、电子病历分析、药物研发等领域。通过自动抽取患者信息,可以提高医疗效率、降低医疗成本,并为个性化医疗提供数据支持。未来,该技术有望进一步应用于智能问诊、疾病预测和健康管理等领域。

📄 摘要(原文)

Natural language processing (NLP) is a key technology to extract important patient information from clinical narratives to support healthcare applications. The rapid development of large language models (LLMs) has revolutionized many NLP tasks in the clinical domain, yet their optimal use in patient information extraction tasks requires further exploration. This study examines LLMs' effectiveness in patient information extraction, focusing on LLM architectures, fine-tuning strategies, and multi-task instruction tuning techniques for developing robust and generalizable patient information extraction systems. This study aims to explore key concepts of using LLMs for clinical concept and relation extraction tasks, including: (1) encoder-only or decoder-only LLMs, (2) prompt-based parameter-efficient fine-tuning (PEFT) algorithms, and (3) multi-task instruction tuning on few-shot learning performance. We benchmarked a suite of LLMs, including encoder-based LLMs (BERT, GatorTron) and decoder-based LLMs (GatorTronGPT, Llama 3.1, GatorTronLlama), across five datasets. We compared traditional full-size fine-tuning and prompt-based PEFT. We explored a multi-task instruction tuning framework that combines both tasks across four datasets to evaluate the zero-shot and few-shot learning performance using the leave-one-dataset-out strategy.