Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study

作者: Xu Tong, Nina Smirnova, Sharmila Upadhyaya, Ran Yu, Jack H. Culbert, Chao Sun, Wolfgang Otto, Philipp Mayr

分类: cs.CL, cs.IR

发布日期: 2024-08-24

备注: 22 pages with 2 figures

💡 一句话要点

对比研究大型语言模型在COVID-19相关中医文献命名实体识别中的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 大型语言模型 中医文献 COVID-19 ChatGPT BERT模型 零样本学习

📋 核心要点

现有NER方法在处理COVID-19相关中医文献时，对特定领域实体识别能力不足，需要更有效的模型。
本研究对比ChatGPT等LLM与BERT模型，探索其在中医命名实体识别任务中的性能，无需预训练。
实验结果表明，LLM在模糊匹配中表现较好，但精确匹配不如BERT，领域微调模型GSAP-NER表现最佳。

📝 摘要（中文）

本研究旨在探索和比较ChatGPT及其他先进LLM在特定领域NER任务中的性能，该任务涵盖了COVID-19相关中医文献中不同的实体类型和领域。我们建立了一个包含389篇关于中医治疗COVID-19的文章的数据集，并手动标注了其中的48篇，标注了属于3个领域的6种实体类型作为ground truth，用于评估LLM的NER性能。然后，我们使用ChatGPT（GPT-3.5和GPT-4）和4个基于BERT的先进问答（QA）模型（RoBERTa、MiniLM、PubMedBERT和SciBERT）对这6种实体类型执行NER任务，而无需事先针对特定任务进行训练。为了进行全面比较，还应用了一个领域微调模型（GSAP-NER）。结果表明，LLM的总体性能在精确匹配和模糊匹配方面差异显著。在模糊匹配中，ChatGPT在6个任务中的5个任务中超过了基于BERT的QA模型，而在精确匹配中，基于BERT的QA模型在6个任务中的5个任务中优于ChatGPT，但F-1差异较小。GPT-4在模糊匹配方面表现出优于其他模型的显著优势，尤其是在中药方剂（TFD）和中药成分（IG）的实体类型上。虽然GPT-4在草药、靶点和研究方法等实体类型上优于基于BERT的模型，但没有一个F-1分数超过0.5。GSAP-NER在RM的F-1方面略微优于GPT-4。ChatGPT实现了明显高于精确率的召回率，尤其是在模糊匹配中。结论是，LLM的NER性能高度依赖于实体类型，并且它们的性能在不同的应用场景中有所不同。ChatGPT可能是优先考虑高召回率的场景的不错选择。然而，对于严格场景中的知识获取，ChatGPT和基于BERT的QA模型都不是专业从业人员的现成工具。

🔬 方法详解

问题定义：论文旨在解决COVID-19相关中医文献中命名实体识别（NER）的问题。现有方法，如传统的BERT模型，在处理特定领域（中医）的NER任务时，由于缺乏领域知识和针对性训练，性能受到限制，难以准确识别中药成分、方剂等专业术语。因此，需要探索更有效的方法来提高中医文献NER的准确性和召回率。

核心思路：论文的核心思路是利用大型语言模型（LLM），如ChatGPT，以及BERT模型，直接进行零样本（zero-shot）NER任务，无需针对特定任务进行预训练。通过比较不同模型的性能，评估LLM在处理特定领域NER任务时的潜力。同时，引入领域微调模型（GSAP-NER）作为对比，以评估LLM与领域特定模型的差距。

技术框架：整体框架包括以下几个主要步骤：1) 构建数据集：收集COVID-19相关中医文献，并手动标注实体类型（如中药、成分、方剂等）。2) 模型选择：选择ChatGPT（GPT-3.5和GPT-4）以及BERT模型（RoBERTa、MiniLM、PubMedBERT、SciBERT）作为实验对象。3) NER任务执行：使用选定的模型对数据集进行NER任务，无需额外训练。4) 性能评估：使用精确匹配和模糊匹配两种方式评估模型的性能，指标包括精确率、召回率和F1值。5) 结果分析：比较不同模型在不同实体类型上的性能差异，分析LLM的优缺点。

关键创新：论文的关键创新在于直接评估了大型语言模型（如ChatGPT）在特定领域（中医）NER任务中的零样本性能。与传统的需要大量标注数据进行训练的方法不同，该研究探索了LLM在缺乏领域知识的情况下，能否有效识别中医文献中的实体。此外，通过与BERT模型和领域微调模型进行对比，更全面地评估了LLM的潜力和局限性。

关键设计：论文的关键设计包括：1) 数据集构建：手动标注了包含6种实体类型的数据集，确保了评估的准确性。2) 评估指标：同时使用精确匹配和模糊匹配两种方式评估模型性能，更全面地反映了模型的识别能力。3) 模型选择：选择了具有代表性的LLM（ChatGPT）和BERT模型，以及领域微调模型（GSAP-NER），确保了对比的全面性。4) 零样本设置：所有模型均在零样本设置下进行评估，避免了预训练带来的偏差。

📊 实验亮点

实验结果表明，在模糊匹配中，ChatGPT在5/6的任务中超过了BERT模型，GPT-4在模糊匹配上优势明显，尤其是在中药方剂和成分识别上。但精确匹配方面，BERT模型更优。GSAP-NER在研究方法实体识别上略优于GPT-4。ChatGPT的召回率明显高于精确率，尤其在模糊匹配中。

🎯 应用场景

该研究成果可应用于中医知识图谱构建、中医药信息检索、辅助药物研发等领域。通过提高中医文献中实体识别的准确性，可以促进中医药知识的自动化提取和利用，为中医药研究和临床实践提供支持。未来，该方法可扩展到其他特定领域的文本挖掘任务。

📄 摘要（原文）

Objective: To explore and compare the performance of ChatGPT and other state-of-the-art LLMs on domain-specific NER tasks covering different entity types and domains in TCM against COVID-19 literature. Methods: We established a dataset of 389 articles on TCM against COVID-19, and manually annotated 48 of them with 6 types of entities belonging to 3 domains as the ground truth, against which the NER performance of LLMs can be assessed. We then performed NER tasks for the 6 entity types using ChatGPT (GPT-3.5 and GPT-4) and 4 state-of-the-art BERT-based question-answering (QA) models (RoBERTa, MiniLM, PubMedBERT and SciBERT) without prior training on the specific task. A domain fine-tuned model (GSAP-NER) was also applied for a comprehensive comparison. Results: The overall performance of LLMs varied significantly in exact match and fuzzy match. In the fuzzy match, ChatGPT surpassed BERT-based QA models in 5 out of 6 tasks, while in exact match, BERT-based QA models outperformed ChatGPT in 5 out of 6 tasks but with a smaller F-1 difference. GPT-4 showed a significant advantage over other models in fuzzy match, especially on the entity type of TCM formula and the Chinese patent drug (TFD) and ingredient (IG). Although GPT-4 outperformed BERT-based models on entity type of herb, target, and research method, none of the F-1 scores exceeded 0.5. GSAP-NER, outperformed GPT-4 in terms of F-1 by a slight margin on RM. ChatGPT achieved considerably higher recalls than precisions, particularly in the fuzzy match. Conclusions: The NER performance of LLMs is highly dependent on the entity type, and their performance varies across application scenarios. ChatGPT could be a good choice for scenarios where high recall is favored. However, for knowledge acquisition in rigorous scenarios, neither ChatGPT nor BERT-based QA models are off-the-shelf tools for professional practitioners.

Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理