Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study
作者: Xu Tong, Nina Smirnova, Sharmila Upadhyaya, Ran Yu, Jack H. Culbert, Chao Sun, Wolfgang Otto, Philipp Mayr
分类: cs.CL, cs.IR
发布日期: 2024-08-24
备注: 22 pages with 2 figures
💡 一句话要点
对比研究大型语言模型在COVID-19相关中医文献命名实体识别中的应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 大型语言模型 中医文献 COVID-19 ChatGPT BERT模型 零样本学习
📋 核心要点
- 现有NER方法在处理COVID-19相关中医文献时,对特定领域实体识别能力不足,需要更有效的模型。
- 本研究对比ChatGPT等LLM与BERT模型,探索其在中医命名实体识别任务中的性能,无需预训练。
- 实验结果表明,LLM在模糊匹配中表现较好,但精确匹配不如BERT,领域微调模型GSAP-NER表现最佳。
📝 摘要(中文)
本研究旨在探索和比较ChatGPT及其他先进LLM在特定领域NER任务中的性能,该任务涵盖了COVID-19相关中医文献中不同的实体类型和领域。我们建立了一个包含389篇关于中医治疗COVID-19的文章的数据集,并手动标注了其中的48篇,标注了属于3个领域的6种实体类型作为ground truth,用于评估LLM的NER性能。然后,我们使用ChatGPT(GPT-3.5和GPT-4)和4个基于BERT的先进问答(QA)模型(RoBERTa、MiniLM、PubMedBERT和SciBERT)对这6种实体类型执行NER任务,而无需事先针对特定任务进行训练。为了进行全面比较,还应用了一个领域微调模型(GSAP-NER)。结果表明,LLM的总体性能在精确匹配和模糊匹配方面差异显著。在模糊匹配中,ChatGPT在6个任务中的5个任务中超过了基于BERT的QA模型,而在精确匹配中,基于BERT的QA模型在6个任务中的5个任务中优于ChatGPT,但F-1差异较小。GPT-4在模糊匹配方面表现出优于其他模型的显著优势,尤其是在中药方剂(TFD)和中药成分(IG)的实体类型上。虽然GPT-4在草药、靶点和研究方法等实体类型上优于基于BERT的模型,但没有一个F-1分数超过0.5。GSAP-NER在RM的F-1方面略微优于GPT-4。ChatGPT实现了明显高于精确率的召回率,尤其是在模糊匹配中。结论是,LLM的NER性能高度依赖于实体类型,并且它们的性能在不同的应用场景中有所不同。ChatGPT可能是优先考虑高召回率的场景的不错选择。然而,对于严格场景中的知识获取,ChatGPT和基于BERT的QA模型都不是专业从业人员的现成工具。
🔬 方法详解
问题定义:论文旨在解决COVID-19相关中医文献中命名实体识别(NER)的问题。现有方法,如传统的BERT模型,在处理特定领域(中医)的NER任务时,由于缺乏领域知识和针对性训练,性能受到限制,难以准确识别中药成分、方剂等专业术语。因此,需要探索更有效的方法来提高中医文献NER的准确性和召回率。
核心思路:论文的核心思路是利用大型语言模型(LLM),如ChatGPT,以及BERT模型,直接进行零样本(zero-shot)NER任务,无需针对特定任务进行预训练。通过比较不同模型的性能,评估LLM在处理特定领域NER任务时的潜力。同时,引入领域微调模型(GSAP-NER)作为对比,以评估LLM与领域特定模型的差距。
技术框架:整体框架包括以下几个主要步骤:1) 构建数据集:收集COVID-19相关中医文献,并手动标注实体类型(如中药、成分、方剂等)。2) 模型选择:选择ChatGPT(GPT-3.5和GPT-4)以及BERT模型(RoBERTa、MiniLM、PubMedBERT、SciBERT)作为实验对象。3) NER任务执行:使用选定的模型对数据集进行NER任务,无需额外训练。4) 性能评估:使用精确匹配和模糊匹配两种方式评估模型的性能,指标包括精确率、召回率和F1值。5) 结果分析:比较不同模型在不同实体类型上的性能差异,分析LLM的优缺点。
关键创新:论文的关键创新在于直接评估了大型语言模型(如ChatGPT)在特定领域(中医)NER任务中的零样本性能。与传统的需要大量标注数据进行训练的方法不同,该研究探索了LLM在缺乏领域知识的情况下,能否有效识别中医文献中的实体。此外,通过与BERT模型和领域微调模型进行对比,更全面地评估了LLM的潜力和局限性。
关键设计:论文的关键设计包括:1) 数据集构建:手动标注了包含6种实体类型的数据集,确保了评估的准确性。2) 评估指标:同时使用精确匹配和模糊匹配两种方式评估模型性能,更全面地反映了模型的识别能力。3) 模型选择:选择了具有代表性的LLM(ChatGPT)和BERT模型,以及领域微调模型(GSAP-NER),确保了对比的全面性。4) 零样本设置:所有模型均在零样本设置下进行评估,避免了预训练带来的偏差。
📊 实验亮点
实验结果表明,在模糊匹配中,ChatGPT在5/6的任务中超过了BERT模型,GPT-4在模糊匹配上优势明显,尤其是在中药方剂和成分识别上。但精确匹配方面,BERT模型更优。GSAP-NER在研究方法实体识别上略优于GPT-4。ChatGPT的召回率明显高于精确率,尤其在模糊匹配中。
🎯 应用场景
该研究成果可应用于中医知识图谱构建、中医药信息检索、辅助药物研发等领域。通过提高中医文献中实体识别的准确性,可以促进中医药知识的自动化提取和利用,为中医药研究和临床实践提供支持。未来,该方法可扩展到其他特定领域的文本挖掘任务。
📄 摘要(原文)
Objective: To explore and compare the performance of ChatGPT and other state-of-the-art LLMs on domain-specific NER tasks covering different entity types and domains in TCM against COVID-19 literature. Methods: We established a dataset of 389 articles on TCM against COVID-19, and manually annotated 48 of them with 6 types of entities belonging to 3 domains as the ground truth, against which the NER performance of LLMs can be assessed. We then performed NER tasks for the 6 entity types using ChatGPT (GPT-3.5 and GPT-4) and 4 state-of-the-art BERT-based question-answering (QA) models (RoBERTa, MiniLM, PubMedBERT and SciBERT) without prior training on the specific task. A domain fine-tuned model (GSAP-NER) was also applied for a comprehensive comparison. Results: The overall performance of LLMs varied significantly in exact match and fuzzy match. In the fuzzy match, ChatGPT surpassed BERT-based QA models in 5 out of 6 tasks, while in exact match, BERT-based QA models outperformed ChatGPT in 5 out of 6 tasks but with a smaller F-1 difference. GPT-4 showed a significant advantage over other models in fuzzy match, especially on the entity type of TCM formula and the Chinese patent drug (TFD) and ingredient (IG). Although GPT-4 outperformed BERT-based models on entity type of herb, target, and research method, none of the F-1 scores exceeded 0.5. GSAP-NER, outperformed GPT-4 in terms of F-1 by a slight margin on RM. ChatGPT achieved considerably higher recalls than precisions, particularly in the fuzzy match. Conclusions: The NER performance of LLMs is highly dependent on the entity type, and their performance varies across application scenarios. ChatGPT could be a good choice for scenarios where high recall is favored. However, for knowledge acquisition in rigorous scenarios, neither ChatGPT nor BERT-based QA models are off-the-shelf tools for professional practitioners.