Generative Large Language Models Are All-purpose Text Analytics Engines: Text-to-text Learning Is All Your Need

📄 arXiv: 2312.06099v1 📥 PDF

作者: Cheng Peng, Xi Yang, Aokun Chen, Zehao Yu, Kaleb E Smith, Anthony B Costa, Mona G Flores, Jiang Bian, Yonghui Wu

分类: cs.CL

发布日期: 2023-12-11


💡 一句话要点

提出基于生成式大语言模型的统一文本分析引擎,通过Prompt Tuning解决临床NLP任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式大语言模型 临床自然语言处理 Prompt Tuning 文本到文本学习 GatorTronGPT

📋 核心要点

  1. 现有临床NLP任务通常依赖于特定任务的Transformer模型,缺乏通用性和效率。
  2. 提出一种基于生成式LLM的统一文本分析引擎,通过prompt tuning实现文本到文本的学习。
  3. 实验结果表明,该方法在多个临床NLP任务上取得了SOTA性能,优于特定任务模型。

📝 摘要(中文)

本研究旨在利用生成式大语言模型(LLM),通过prompt tuning,构建一个统一的文本到文本学习架构,以解决主要的临床自然语言处理(NLP)任务。研究将7个关键临床NLP任务转化为文本到文本学习问题,并使用基于GPT-3架构、拥有高达200亿参数的生成式临床LLM——GatorTronGPT来解决这些问题。采用软提示(即,可训练的向量)和冻结的LLM,仅更新软提示的向量。通过将额外的软提示作为前缀添加到输入层,并在prompt tuning期间对其进行优化。在7个临床NLP任务上评估了该方法,并与之前基于Transformer模型的特定任务解决方案进行了比较。结果表明,所提出的方法在使用统一的生成式LLM的情况下,在7个主要临床NLP任务中的5个上实现了最先进的性能。该方法在应用于健康社会决定因素的概念提取和关系提取方面,优于之前的特定任务transformer模型约3%;在临床概念标准化方面优于3.4%;在临床缩写消歧方面优于3.4%~10%;在自然语言推理方面优于5.5%~9%。该方法还优于先前开发的基于prompt的机器阅读理解(MRC)模型GatorTron-MRC,用于临床概念和关系提取。所提出的方法可以使用统一的生成式LLM,实现从训练到部署的“一个模型解决所有问题”的承诺。

🔬 方法详解

问题定义:论文旨在解决临床自然语言处理(NLP)领域中,多个任务需要独立模型的问题。现有方法通常针对特定任务训练Transformer模型,导致模型数量庞大,维护成本高昂,且难以迁移到新的任务上。因此,需要一种通用的模型,能够处理多种临床NLP任务。

核心思路:论文的核心思路是利用生成式大语言模型(LLM)的强大生成能力,将不同的临床NLP任务转化为文本到文本的学习问题。通过prompt tuning,即固定LLM的参数,只训练少量的prompt参数,从而实现对LLM的快速适应和高效利用。这种方法避免了从头开始训练新模型,大大降低了计算成本和时间成本。

技术框架:整体框架包括以下几个主要步骤:1)将临床NLP任务转化为文本到文本的格式;2)使用预训练的生成式LLM(GatorTronGPT)作为基础模型;3)在输入层添加可训练的软提示(soft prompts);4)使用特定任务的数据集对软提示进行prompt tuning,优化prompt参数;5)使用优化后的模型进行推理和预测。

关键创新:最重要的技术创新点在于使用prompt tuning来适应不同的临床NLP任务。与传统的微调(fine-tuning)方法相比,prompt tuning只需要训练少量的参数,大大降低了计算成本和存储成本。此外,prompt tuning还可以更好地保留LLM的通用知识,避免过拟合特定任务。

关键设计:关键的设计包括:1)使用GPT-3架构的GatorTronGPT作为基础模型,该模型拥有高达200亿的参数,具有强大的生成能力;2)使用软提示(soft prompts)作为可训练的参数,这些参数被添加到输入层,并与输入文本一起输入到LLM中;3)使用交叉熵损失函数来优化prompt参数,目标是最大化生成正确答案的概率。

📊 实验亮点

实验结果表明,该方法在7个临床NLP任务中的5个上取得了SOTA性能。例如,在健康社会决定因素的概念提取和关系提取方面,优于之前的特定任务transformer模型约3%和7%;在临床概念标准化方面优于3.4%;在临床缩写消歧方面优于3.4%~10%;在自然语言推理方面优于5.5%~9%。

🎯 应用场景

该研究成果可广泛应用于医疗健康领域,例如辅助医生进行病历分析、临床决策支持、药物研发等。通过构建统一的临床NLP引擎,可以降低开发和维护成本,提高医疗服务的效率和质量,并加速医疗知识的传播和应用。

📄 摘要(原文)

Objective To solve major clinical natural language processing (NLP) tasks using a unified text-to-text learning architecture based on a generative large language model (LLM) via prompt tuning. Methods We formulated 7 key clinical NLP tasks as text-to-text learning and solved them using one unified generative clinical LLM, GatorTronGPT, developed using GPT-3 architecture and trained with up to 20 billion parameters. We adopted soft prompts (i.e., trainable vectors) with frozen LLM, where the LLM parameters were not updated (i.e., frozen) and only the vectors of soft prompts were updated, known as prompt tuning. We added additional soft prompts as a prefix to the input layer, which were optimized during the prompt tuning. We evaluated the proposed method using 7 clinical NLP tasks and compared them with previous task-specific solutions based on Transformer models. Results and Conclusion The proposed approach achieved state-of-the-art performance for 5 out of 7 major clinical NLP tasks using one unified generative LLM. Our approach outperformed previous task-specific transformer models by ~3% for concept extraction and 7% for relation extraction applied to social determinants of health, 3.4% for clinical concept normalization, 3.4~10% for clinical abbreviation disambiguation, and 5.5~9% for natural language inference. Our approach also outperformed a previously developed prompt-based machine reading comprehension (MRC) model, GatorTron-MRC, for clinical concept and relation extraction. The proposed approach can deliver the one model for all promise from training to deployment using a unified generative LLM.