HILGEN: Hierarchically-Informed Data Generation for Biomedical NER Using Knowledgebases and Large Language Models
作者: Yao Ge, Yuting Guo, Sudeshna Das, Swati Rajwal, Selen Bozkurt, Abeed Sarker
分类: cs.CL, cs.AI
发布日期: 2025-03-06
💡 一句话要点
HILGEN:结合知识库和LLM的分层生物医学命名实体识别数据生成方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生物医学命名实体识别 数据增强 知识库 大型语言模型 合成数据生成
📋 核心要点
- 生物医学命名实体识别(NER)面临数据稀缺挑战,特别是对于罕见实体,限制了模型性能。
- HILGEN利用UMLS知识库的层次结构和GPT-3.5生成合成数据,扩充训练集,提升模型对罕见实体的识别能力。
- 实验表明,HILGEN在多个数据集上显著提升了BERT-Large和DANN模型的F1值,最高提升达42.29%。
📝 摘要(中文)
本文提出了一种分层信息数据生成方法HILGEN,它结合了来自统一医学语言系统(UMLS)的领域知识和由大型语言模型(LLM)GPT-3.5生成的合成数据。该方法利用UMLS的层次结构,通过相关概念扩展训练数据,同时通过有针对性的提示,从LLM中获取上下文信息,从而自动生成稀疏命名实体的合成示例。HILGEN方法在四个生物医学NER数据集(MIMIC III、BC5CDR、NCBI-Disease和Med-Mentions)上使用BERT-Large和DANN模型进行了评估,应用了各种数据生成策略,包括UMLS、GPT-3.5及其最佳集成。对于BERT-Large模型,结合UMLS平均F1值提高了40.36%,而使用GPT-3.5平均提高了40.52%。使用BERT-Large的最佳集成方法实现了最高的改进,平均提高了42.29%。DANN模型仅使用UMLS的方法,F1值平均提高了22.74%。基于GPT-3.5的方法带来了21.53%的增长,而最佳集成DANN模型显示出更显著的改进,平均增长了25.03%。我们提出的HILGEN方法在少样本设置中提高了NER性能,而无需额外的手动标注数据。我们的实验表明,优化生物医学NER的有效策略是结合过去整理的生物医学知识(如UMLS)和生成式LLM来创建合成训练实例。我们未来的研究将侧重于探索更多创新的合成数据生成策略,以进一步提高NER性能。
🔬 方法详解
问题定义:生物医学命名实体识别任务中,由于数据集中存在大量长尾实体,导致模型在识别这些实体时性能较差。现有的方法通常依赖于大量标注数据,但在生物医学领域,获取高质量的标注数据成本很高,因此需要一种能够在数据稀缺的情况下提升模型性能的方法。
核心思路:HILGEN的核心思路是利用UMLS知识库的层次结构和大型语言模型(LLM)生成合成数据,从而扩充训练集。UMLS提供了丰富的生物医学概念和它们之间的关系,可以用来生成与原始数据相关的概念。LLM则可以根据给定的上下文生成具有一定真实性的文本,从而模拟真实世界中的数据分布。通过将两者结合,可以生成既包含领域知识又具有一定真实性的合成数据,从而提升模型在数据稀缺情况下的性能。
技术框架:HILGEN方法主要包含以下几个阶段: 1. UMLS知识库扩展:利用UMLS的层次结构,找到与原始数据集中实体相关的概念。 2. LLM数据生成:使用GPT-3.5等LLM,根据原始数据和UMLS扩展的概念,生成合成数据。 3. 模型训练:将原始数据和合成数据混合,训练生物医学NER模型。 4. 模型评估:在测试集上评估模型的性能。
关键创新:HILGEN的关键创新在于将知识库和LLM结合起来生成合成数据。与传统的基于规则或数据增强的方法相比,HILGEN能够生成更具有领域知识和真实性的数据。与单独使用LLM生成数据相比,HILGEN能够更好地控制生成数据的质量和相关性。
关键设计:在LLM数据生成阶段,论文使用了精心设计的prompt,以引导LLM生成高质量的合成数据。例如,prompt中包含了实体的定义、上下文信息以及一些相关的例子。此外,论文还使用了不同的数据生成策略,例如只使用UMLS、只使用GPT-3.5以及将两者结合。在模型训练阶段,论文使用了BERT-Large和DANN等先进的NER模型,并对模型的参数进行了优化。
📊 实验亮点
实验结果表明,HILGEN方法在四个生物医学NER数据集上显著提升了模型的性能。对于BERT-Large模型,结合UMLS平均F1值提高了40.36%,而使用GPT-3.5平均提高了40.52%。最佳集成方法实现了最高的改进,平均提高了42.29%。DANN模型也取得了显著的提升,最佳集成DANN模型平均增长了25.03%。
🎯 应用场景
HILGEN方法可应用于各种生物医学文本挖掘任务,例如药物发现、疾病诊断和临床决策支持。通过提升NER的性能,可以更准确地从生物医学文献中提取关键信息,从而加速科学研究和临床实践。该方法尤其适用于数据稀缺的场景,例如罕见疾病的研究。
📄 摘要(原文)
We present HILGEN, a Hierarchically-Informed Data Generation approach that combines domain knowledge from the Unified Medical Language System (UMLS) with synthetic data generated by large language models (LLMs), specifically GPT-3.5. Our approach leverages UMLS's hierarchical structure to expand training data with related concepts, while incorporating contextual information from LLMs through targeted prompts aimed at automatically generating synthetic examples for sparsely occurring named entities. The performance of the HILGEN approach was evaluated across four biomedical NER datasets (MIMIC III, BC5CDR, NCBI-Disease, and Med-Mentions) using BERT-Large and DANN (Data Augmentation with Nearest Neighbor Classifier) models, applying various data generation strategies, including UMLS, GPT-3.5, and their best ensemble. For the BERT-Large model, incorporating UMLS led to an average F1 score improvement of 40.36%, while using GPT-3.5 resulted in a comparable average increase of 40.52%. The Best-Ensemble approach using BERT-Large achieved the highest improvement, with an average increase of 42.29%. DANN model's F1 score improved by 22.74% on average using the UMLS-only approach. The GPT-3.5-based method resulted in a 21.53% increase, and the Best-Ensemble DANN model showed a more notable improvement, with an average increase of 25.03%. Our proposed HILGEN approach improves NER performance in few-shot settings without requiring additional manually annotated data. Our experiments demonstrate that an effective strategy for optimizing biomedical NER is to combine biomedical knowledge curated in the past, such as the UMLS, and generative LLMs to create synthetic training instances. Our future research will focus on exploring additional innovative synthetic data generation strategies for further improving NER performance.