Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources
作者: Yiming Li, Deepthi Viswaroopan, William He, Jianfu Li, Xu Zuo, Hua Xu, Cui Tao
分类: cs.CL, cs.AI
发布日期: 2024-06-26
💡 一句话要点
通过深度学习与微调大语言模型集成,提升实体识别效果:以多源不良事件抽取为例
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 不良事件抽取 命名实体识别 深度学习 大型语言模型 模型集成 生物医学自然语言处理 药物警戒 疫苗安全
📋 核心要点
- 现有方法在不良事件抽取中面临挑战,传统深度学习模型依赖大量标注数据,而大型语言模型在命名实体识别任务中表现不稳定。
- 论文提出集成深度学习模型和微调的大型语言模型,利用各自优势,提升不良事件相关信息的抽取性能。
- 实验结果表明,集成模型在疫苗、注射和不良事件实体的严格F1分数分别达到0.878、0.930和0.925,微平均分数为0.903,显著提升了性能。
📝 摘要(中文)
从文本数据中抽取COVID-19疫苗后的不良事件(AE)对于监测和分析免疫接种的安全性至关重要。传统的深度学习模型擅长学习序列数据中复杂的特征表示和依赖关系,但通常需要大量的标注数据。相比之下,大型语言模型(LLM)擅长理解上下文信息,但在命名实体识别任务中表现不稳定,这可能是由于其广泛但不具体的训练所致。本研究旨在评估LLM和传统深度学习模型在AE抽取中的有效性,并评估集成这些模型对性能的影响。在本研究中,我们使用了来自VAERS(n=621)、Twitter(n=9,133)和Reddit(n=131)的报告和帖子作为语料库。我们的目标是提取三种类型的实体:“疫苗”、“注射”和“ae”。我们探索并微调(GPT-4除外)了多个LLM,包括GPT-2、GPT-3.5、GPT-4和Llama-2,以及传统的深度学习模型,如RNN和BioBERT。为了提高性能,我们创建了性能最佳的三个模型的集成。为了评估,我们使用严格和宽松的F1分数来评估每种实体类型的性能,并使用微平均F1来评估总体性能。集成模型在“疫苗”、“注射”和“ae”中实现了最高的性能,严格F1分数分别为0.878、0.930和0.925,微平均分数为0.903。总之,本研究证明了集成微调的传统深度学习模型和LLM在提取AE相关信息方面的有效性和鲁棒性。这项研究有助于生物医学自然语言处理的进步,为改进药物警戒和公共卫生监测的文本数据中的AE提取提供了宝贵的见解。
🔬 方法详解
问题定义:论文旨在解决从多源文本数据(VAERS、Twitter、Reddit)中准确抽取不良事件(AE)相关信息的问题,具体包括“疫苗”、“注射”和“ae”三种实体。现有方法,如传统深度学习模型,需要大量标注数据,而大型语言模型在命名实体识别任务中表现不稳定,无法直接应用于该任务。
核心思路:论文的核心思路是集成传统深度学习模型和微调的大型语言模型,利用深度学习模型学习复杂特征表示的能力,以及大型语言模型理解上下文信息的能力。通过集成,可以弥补单一模型的不足,提高实体识别的准确性和鲁棒性。
技术框架:整体框架包括数据预处理、模型训练和集成三个主要阶段。首先,对来自VAERS、Twitter和Reddit的文本数据进行预处理。然后,分别训练传统的深度学习模型(RNN、BioBERT)和微调的大型语言模型(GPT-2、GPT-3.5、Llama-2)。最后,选择性能最佳的三个模型进行集成,采用某种集成策略(具体策略未知)来融合它们的预测结果。
关键创新:论文的关键创新在于将传统深度学习模型和微调的大型语言模型集成应用于不良事件抽取任务。这种集成方法充分利用了两种模型的优势,克服了各自的局限性,从而提高了实体识别的准确性和鲁棒性。
关键设计:论文中关键的设计包括:1) 选择合适的深度学习模型(RNN、BioBERT)和大型语言模型(GPT-2、GPT-3.5、Llama-2);2) 对大型语言模型进行微调,使其适应不良事件抽取任务;3) 设计有效的集成策略,融合不同模型的预测结果;4) 使用严格和宽松的F1分数以及微平均F1分数进行评估。
📊 实验亮点
实验结果表明,集成模型在“疫苗”、“注射”和“ae”实体上的严格F1分数分别达到0.878、0.930和0.925,微平均F1分数为0.903。相较于单一模型,集成方法显著提升了不良事件抽取的性能,验证了其有效性和鲁棒性。具体提升幅度未知,需要查阅原文。
🎯 应用场景
该研究成果可应用于药物警戒、公共卫生监测等领域,帮助快速准确地从海量文本数据中提取不良事件相关信息,为疫苗安全评估、疫情监测和风险预警提供支持。未来可扩展到其他生物医学文本挖掘任务,例如疾病诊断、药物研发等。
📄 摘要(原文)
Adverse event (AE) extraction following COVID-19 vaccines from text data is crucial for monitoring and analyzing the safety profiles of immunizations. Traditional deep learning models are adept at learning intricate feature representations and dependencies in sequential data, but often require extensive labeled data. In contrast, large language models (LLMs) excel in understanding contextual information, but exhibit unstable performance on named entity recognition tasks, possibly due to their broad but unspecific training. This study aims to evaluate the effectiveness of LLMs and traditional deep learning models in AE extraction, and to assess the impact of ensembling these models on performance. In this study, we utilized reports and posts from the VAERS (n=621), Twitter (n=9,133), and Reddit (n=131) as our corpora. Our goal was to extract three types of entities: "vaccine", "shot", and "ae". We explored and fine-tuned (except GPT-4) multiple LLMs, including GPT-2, GPT-3.5, GPT-4, and Llama-2, as well as traditional deep learning models like RNN and BioBERT. To enhance performance, we created ensembles of the three models with the best performance. For evaluation, we used strict and relaxed F1 scores to evaluate the performance for each entity type, and micro-average F1 was used to assess the overall performance. The ensemble model achieved the highest performance in "vaccine", "shot", and "ae" with strict F1-scores of 0.878, 0.930, and 0.925, respectively, along with a micro-average score of 0.903. In conclusion, this study demonstrates the effectiveness and robustness of ensembling fine-tuned traditional deep learning models and LLMs, for extracting AE-related information. This study contributes to the advancement of biomedical natural language processing, providing valuable insights into improving AE extraction from text data for pharmacovigilance and public health surveillance.