Low-resource classification of mobility functioning information in clinical sentences using large language models

📄 arXiv: 2312.10202v1 📥 PDF

作者: Tuan Dung Le, Thanh Duong, Thanh Thieu

分类: cs.CL

发布日期: 2023-12-15


💡 一句话要点

利用大型语言模型进行临床语句中行动功能信息的低资源分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床文本分类 行动功能信息 低资源学习 提示学习

📋 核心要点

  1. 现有方法难以有效利用临床文本中的行动功能信息,阻碍了个体健康评估的全面性。
  2. 论文提出利用大型语言模型,通过零样本、小样本学习和参数高效微调,提升行动功能信息分类的准确性。
  3. 实验结果表明,Flan-T5-xxl模型在小样本学习中表现出色,微调后的Flan-T5-xl模型性能可与更大模型媲美。

📝 摘要(中文)

本研究评估了公开可用的大型语言模型(LLMs)从临床笔记中准确识别行动功能信息的能力。功能被认为是个体健康的重要指标。我们探索了多种策略来提高此任务的性能。我们收集了一个平衡的二元分类数据集,包含1000个句子,这些句子来自Mobility NER数据集,该数据集是从n2c2临床笔记中整理而来。为了评估,我们构建了零样本和小样本提示,以查询LLMs给定的句子是否包含行动功能信息。我们使用两种抽样技术,随机抽样和基于k近邻(kNN)的抽样,来选择小样本示例。此外,我们将一种参数高效的基于提示的微调方法应用于LLMs,并评估它们在各种训练设置下的性能。结果表明,Flan-T5-xxl在零样本和小样本设置中均优于所有其他模型,使用kNN抽样选择的单个演示示例实现了0.865的F1分数。在基于提示的微调实验中,该基础模型在所有低资源设置中也表现出卓越的性能,尤其是在使用完整训练数据集时实现了令人印象深刻的0.922的F1分数。较小的模型Flan-T5-xl仅需使用230万个额外参数进行微调,即可达到与完全微调的Gatortron-base模型相当的性能,两者均超过0.9的F1分数。结论是,开源指令调整的LLMs在行动功能分类任务中表现出令人印象深刻的上下文学习能力。可以通过在特定于任务的数据集上继续进行微调来进一步提高这些模型的性能。

🔬 方法详解

问题定义:论文旨在解决临床文本中行动功能信息的自动分类问题。现有方法可能依赖于人工特征工程或需要大量标注数据,成本高昂且泛化能力有限。因此,如何利用少量数据高效地识别行动功能信息是本研究的核心问题。

核心思路:论文的核心思路是利用预训练大型语言模型(LLMs)的强大上下文学习能力和泛化能力,通过零样本、小样本学习和参数高效微调,在低资源条件下实现准确的行动功能信息分类。这种方法旨在减少对大量标注数据的依赖,并提高模型的适应性。

技术框架:整体流程包括数据准备、模型选择、提示构建、模型推理和性能评估。首先,从Mobility NER数据集中提取句子,构建二元分类数据集。然后,选择Flan-T5等LLMs作为基础模型。接着,设计零样本和少样本提示,利用随机抽样和kNN抽样选择少样本示例。最后,采用参数高效的提示微调方法,在不同训练设置下评估模型性能。

关键创新:论文的关键创新在于探索了大型语言模型在低资源临床文本分类任务中的应用潜力,并验证了参数高效微调方法在该场景下的有效性。此外,论文还比较了不同抽样策略对少样本学习性能的影响,为实际应用提供了指导。

关键设计:在少样本学习中,使用了kNN抽样来选择与目标句子语义相似的示例,以提高模型的学习效率。在参数高效微调中,采用了Prompt Tuning方法,仅微调少量提示参数,避免了对整个模型进行微调,从而降低了计算成本和过拟合风险。具体参数设置未知。

📊 实验亮点

Flan-T5-xxl模型在小样本学习中表现出色,使用kNN抽样选择的单个示例实现了0.865的F1分数。通过参数高效微调,Flan-T5-xl模型仅需微调230万个参数,即可达到与完全微调的Gatortron-base模型相当的性能,F1分数均超过0.9。这些结果表明,大型语言模型在低资源临床文本分类任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于智能医疗辅助诊断、电子病历分析、康复评估等领域。通过自动识别临床文本中的行动功能信息,可以帮助医生更全面地了解患者的健康状况,制定个性化的治疗方案,并提高医疗效率。未来,该技术有望扩展到其他类型的临床信息提取任务中。

📄 摘要(原文)

Objective: Function is increasingly recognized as an important indicator of whole-person health. This study evaluates the ability of publicly available large language models (LLMs) to accurately identify the presence of functioning information from clinical notes. We explore various strategies to improve the performance on this task. Materials and Methods: We collect a balanced binary classification dataset of 1000 sentences from the Mobility NER dataset, which was curated from n2c2 clinical notes. For evaluation, we construct zero-shot and few-shot prompts to query the LLMs whether a given sentence contains mobility functioning information. Two sampling techniques, random sampling and k-nearest neighbor (kNN)-based sampling, are used to select the few-shot examples. Furthermore, we apply a parameter-efficient prompt-based fine-tuning method to the LLMs and evaluate their performance under various training settings. Results: Flan-T5-xxl outperforms all other models in both zero-shot and few-shot settings, achieving a F1 score of 0.865 with a single demonstrative example selected by kNN sampling. In prompt-based fine-tuning experiments, this foundation model also demonstrates superior performance across all low-resource settings, particularly achieving an impressive F1 score of 0.922 using the full training dataset. The smaller model, Flan-T5-xl, requires fine-tuning with only 2.3M additional parameters to achieve comparable performance to the fully fine-tuned Gatortron-base model, both surpassing 0.9 F1 score. Conclusion: Open-source instruction-tuned LLMs demonstrate impressive in-context learning capability in the mobility functioning classification task. The performance of these models can be further improved by continuing fine-tuning on a task-specific dataset.