Cancer Vaccine Adjuvant Name Recognition from Biomedical Literature using Large Language Models

📄 arXiv: 2502.09659v1 📥 PDF

作者: Hasin Rehana, Jie Zheng, Leo Yeh, Benu Bansal, Nur Bengisu Çam, Christianah Jemiyo, Brett McGregor, Arzucan Özgür, Yongqun He, Junguk Hur

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-02-12

备注: 10 pages, 6 figures, 4 tables


💡 一句话要点

利用大型语言模型从生物医学文献中识别癌症疫苗佐剂名称

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 生物医学信息提取 疫苗佐剂 命名实体识别 提示工程

📋 核心要点

  1. 人工从不断增长的生物医学文献中提取佐剂名称面临巨大挑战,阻碍了癌症疫苗和免疫疗法研究。
  2. 利用大型语言模型(GPT-4o和Llama 3.2)的强大能力,通过零样本和少样本学习自动识别佐剂名称。
  3. 实验结果表明,GPT-4o在识别佐剂名称方面表现出色,显著提高了精确率、召回率和F1分数。

📝 摘要(中文)

本研究旨在利用大型语言模型(LLMs),特别是Generative Pretrained Transformers (GPT)和Large Language Model Meta AI (Llama),自动识别生物医学文献中的疫苗佐剂名称,以加速癌症疫苗研究和免疫疗法开发。研究使用了来自AdjuvareDB的97条临床试验记录和使用疫苗佐剂纲要(VAC)注释的290篇摘要。采用零样本和少样本学习范式,每个提示最多包含四个示例。实验结果表明,GPT-4o在所有情况下均达到100%的精确率,并且在召回率和F1分数方面有显著提高,尤其是在结合干预措施的情况下。在VAC数据集上,GPT-4o在结合干预措施时达到了77.32%的最高F1分数,超过Llama-3.2-3B约2%。在AdjuvareDB数据集上,GPT-4o在三次提示干预下达到了81.67%的F1分数,超过了Llama-3.2-3B的最高F1分数65.62%。研究结果表明,LLMs能够有效地识别佐剂名称,包括罕见的命名表示形式,从而促进癌症疫苗的开发。

🔬 方法详解

问题定义:论文旨在解决从海量生物医学文献中自动识别癌症疫苗佐剂名称的问题。现有方法依赖于人工标注,耗时耗力,难以跟上文献增长的速度。因此,需要一种高效、自动化的方法来提取佐剂信息,加速疫苗研发。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大自然语言理解和生成能力,通过提示工程(prompt engineering)引导模型识别佐剂名称。通过设计合适的提示,使模型能够理解上下文信息,区分佐剂和其他生物医学实体。

技术框架:整体流程包括数据准备、模型选择、提示设计、模型推理和结果评估。首先,使用AdjuvareDB和VAC数据集进行训练和测试。然后,选择GPT-4o和Llama 3.2作为基础模型。接着,设计零样本和少样本提示,并加入上下文信息(如干预措施)。最后,对模型输出进行自动和手动验证,评估模型的性能。

关键创新:论文的关键创新在于探索了LLMs在佐剂名称识别任务中的应用,并验证了其有效性。通过对比不同模型的性能,以及不同提示策略的效果,揭示了LLMs在生物医学信息提取方面的潜力。此外,论文还强调了上下文信息的重要性,通过加入干预措施,显著提高了模型的性能。

关键设计:论文采用了零样本和少样本学习范式,每个提示最多包含四个示例。提示的设计重点在于明确目标,即要求模型识别佐剂名称。此外,论文还尝试了不同的上下文信息,如物质或干预措施,以提高模型的性能。评估指标包括精确率、召回率和F1分数。

📊 实验亮点

GPT-4o在VAC数据集上,结合干预措施时达到了77.32%的最高F1分数,超过Llama-3.2-3B约2%。在AdjuvareDB数据集上,GPT-4o在三次提示干预下达到了81.67%的F1分数,超过了Llama-3.2-3B的最高F1分数65.62%。GPT-4o在所有情况下均达到100%的精确率。

🎯 应用场景

该研究成果可应用于生物医学信息检索、知识图谱构建和药物研发等领域。通过自动提取佐剂信息,可以加速疫苗研发进程,提高免疫疗法的效率。此外,该方法还可以推广到其他生物医学实体的识别,例如疾病、基因和蛋白质等,具有广泛的应用前景。

📄 摘要(原文)

Motivation: An adjuvant is a chemical incorporated into vaccines that enhances their efficacy by improving the immune response. Identifying adjuvant names from cancer vaccine studies is essential for furthering research and enhancing immunotherapies. However, the manual curation from the constantly expanding biomedical literature poses significant challenges. This study explores the automated recognition of vaccine adjuvant names using Large Language Models (LLMs), specifically Generative Pretrained Transformers (GPT) and Large Language Model Meta AI (Llama). Methods: We utilized two datasets: 97 clinical trial records from AdjuvareDB and 290 abstracts annotated with the Vaccine Adjuvant Compendium (VAC). GPT-4o and Llama 3.2 were employed in zero-shot and few-shot learning paradigms with up to four examples per prompt. Prompts explicitly targeted adjuvant names, testing the impact of contextual information such as substances or interventions. Outputs underwent automated and manual validation for accuracy and consistency. Results: GPT-4o attained 100% Precision across all situations while exhibiting notable improve in Recall and F1-scores, particularly with incorporating interventions. On the VAC dataset, GPT-4o achieved a maximum F1-score of 77.32% with interventions, surpassing Llama-3.2-3B by approximately 2%. On the AdjuvareDB dataset, GPT-4o reached an F1-score of 81.67% for three-shot prompting with interventions, surpassing Llama-3.2-3 B's maximum F1-score of 65.62%. Conclusion: Our findings demonstrate that LLMs excel at identifying adjuvant names, including rare variations of naming representation. This study emphasizes the capability of LLMs to enhance cancer vaccine development by efficiently extracting insights. Future work aims to broaden the framework to encompass various biomedical literature and enhance model generalizability across various vaccines and adjuvants.