Disease Entity Recognition and Normalization is Improved with Large Language Model Derived Synthetic Normalized Mentions

📄 arXiv: 2410.07951v1 📥 PDF

作者: Kuleen Sasse, Shinjitha Vadlakonda, Richard E. Kennedy, John D. Osborne

分类: cs.CL, cs.LG

发布日期: 2024-10-10

备注: 21 pages, 3 figures, 7 tables


💡 一句话要点

利用LLM生成的合成归一化提及改进疾病实体识别与归一化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 疾病实体识别 疾病实体归一化 大型语言模型 合成数据 数据增强 临床文本挖掘 LLaMa-2 UMLS

📋 核心要点

  1. 临床命名实体识别和归一化任务面临罕见疾病数据不足的挑战,导致模型泛化能力受限。
  2. 利用LLaMa-2等大型语言模型生成合成数据,特别是归一化的疾病提及,以扩充训练集。
  3. 实验表明,该方法显著提升了疾病实体归一化(DEN)的性能,尤其是在分布外数据上。

📝 摘要(中文)

背景:用于临床命名实体识别和实体归一化系统的机器学习方法可以利用标注语料库和知识图谱(KG)进行学习。然而,不常出现的概念在训练语料库中可能只有很少的提及,并且即使在大型KG中也缺乏详细的描述或同义词。对于疾病实体识别(DER)和疾病实体归一化(DEN),这可能导致相对于已知疾病的数量,高质量的训练样本较少。大型语言模型(LLM)生成合成训练样本可以提高这些信息提取任务的性能。 方法:我们对LLaMa-2 13B Chat LLM进行了微调,以生成包含来自统一医学语言系统(UMLS)疾病语义组的概念的归一化提及的合成语料库。我们测量了DER和DEN的总体和分布外(OOD)性能,无论是否进行合成数据增强。我们使用4种不同的数据增强策略评估了3个不同疾病语料库的性能,使用BioBERT进行DER评估,使用SapBERT和KrissBERT进行DEN评估。 结果:我们的合成数据显着提高了DEN的性能,在所有3个训练语料库中,SapBERT和KrissBERT的top 1准确率在总体性能上提高了3-9个点,在OOD数据上提高了20-55个点。DER的总体性能也略有提高(1-2个点),但只有一个数据集显示出OOD改进。 结论:相对于不使用LLM通过合成提及来增强数据的方法,LLM生成的归一化疾病提及可以改善DEN。消融研究表明,DEN的性能提升仅部分归因于OOD性能的提高。相同的方法仅具有有限的能力来改善DER。我们公开提供我们的软件和数据集。

🔬 方法详解

问题定义:论文旨在解决疾病实体识别(DER)和疾病实体归一化(DEN)任务中,由于罕见疾病数据匮乏导致模型性能下降的问题。现有方法依赖于标注语料和知识图谱,但对于低频疾病,标注数据和知识图谱信息均不足,限制了模型的学习效果。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成合成数据,特别是归一化的疾病提及,以扩充训练集。通过LLM的生成能力,可以模拟出更多样化的疾病提及方式,从而提高模型对罕见疾病的识别和归一化能力。

技术框架:整体流程包括:1) 使用LLaMa-2 13B Chat LLM,并针对UMLS疾病语义组的概念进行微调,使其具备生成归一化疾病提及的能力。2) 生成合成语料库,包含疾病概念的多种提及方式。3) 使用合成数据增强训练集,分别训练DER和DEN模型。4) 在多个疾病语料库上评估模型性能,包括总体性能和分布外(OOD)性能。

关键创新:关键创新在于利用LLM生成合成的归一化疾病提及,并将其用于数据增强。与传统的数据增强方法相比,LLM能够生成更具语义信息和多样性的数据,从而更有效地提升模型性能。此外,论文还关注了OOD数据的性能提升,这对于实际应用中处理未见过的疾病概念至关重要。

关键设计:论文使用了LLaMa-2 13B Chat作为基础LLM,并针对UMLS疾病语义组进行了微调。对于DER,使用BioBERT进行评估;对于DEN,使用SapBERT和KrissBERT进行评估。实验中采用了多种数据增强策略,并进行了消融研究,以分析合成数据对模型性能的影响。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,使用LLM生成的合成数据可以显著提高DEN的性能。在所有3个训练语料库中,SapBERT和KrissBERT的top 1准确率在总体性能上提高了3-9个点,在OOD数据上提高了20-55个点。DER的总体性能也略有提高(1-2个点),但OOD改进不明显。这些结果表明,LLM生成合成数据对于提升DEN的泛化能力具有重要作用。

🎯 应用场景

该研究成果可应用于临床文本挖掘、电子病历分析、医学知识图谱构建等领域。通过提高疾病实体识别和归一化的准确性,可以辅助医生进行诊断和治疗,提升医疗服务的效率和质量。未来,该方法可以扩展到其他医学领域,例如药物、基因等实体的识别和归一化。

📄 摘要(原文)

Background: Machine learning methods for clinical named entity recognition and entity normalization systems can utilize both labeled corpora and Knowledge Graphs (KGs) for learning. However, infrequently occurring concepts may have few mentions in training corpora and lack detailed descriptions or synonyms, even in large KGs. For Disease Entity Recognition (DER) and Disease Entity Normalization (DEN), this can result in fewer high quality training examples relative to the number of known diseases. Large Language Model (LLM) generation of synthetic training examples could improve performance in these information extraction tasks. Methods: We fine-tuned a LLaMa-2 13B Chat LLM to generate a synthetic corpus containing normalized mentions of concepts from the Unified Medical Language System (UMLS) Disease Semantic Group. We measured overall and Out of Distribution (OOD) performance for DER and DEN, with and without synthetic data augmentation. We evaluated performance on 3 different disease corpora using 4 different data augmentation strategies, assessed using BioBERT for DER and SapBERT and KrissBERT for DEN. Results: Our synthetic data yielded a substantial improvement for DEN, in all 3 training corpora the top 1 accuracy of both SapBERT and KrissBERT improved by 3-9 points in overall performance and by 20-55 points in OOD data. A small improvement (1-2 points) was also seen for DER in overall performance, but only one dataset showed OOD improvement. Conclusion: LLM generation of normalized disease mentions can improve DEN relative to normalization approaches that do not utilize LLMs to augment data with synthetic mentions. Ablation studies indicate that performance gains for DEN were only partially attributable to improvements in OOD performance. The same approach has only a limited ability to improve DER. We make our software and dataset publicly available.