From Memorization to Generalization: Fine-Tuning Large Language Models for Biomedical Term-to-Identifier Normalization
作者: Suswitha Pericharla, Daniel B. Hier, Tayo Obafemi-Ajayi
分类: cs.CL
发布日期: 2025-10-21
备注: Submitted for publication to BMC BioData Mining
💡 一句话要点
微调大型语言模型用于生物医学术语-标识符归一化,揭示泛化能力差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生物医学术语归一化 大型语言模型 微调 泛化能力 知识库 语义互操作性 标识符流行度 词汇化
📋 核心要点
- 现有生物医学术语归一化方法在不同术语集上表现不均,缺乏对大型语言模型泛化能力的深入理解。
- 通过微调Llama 3.1 8B,研究揭示了标识符流行度和词汇化对模型记忆和泛化能力的关键影响。
- 实验表明,GO映射记忆增益显著(高达77%),而GENE映射实现了泛化(13.9%),GPT-4o在所有术语集中表现最佳。
📝 摘要(中文)
有效的生物医学数据集成依赖于自动术语归一化,即将自然语言生物医学术语映射到标准化标识符。这种术语到标识符的链接对于语义互操作性至关重要。大型语言模型(LLM)在这项任务中显示出潜力,但在不同术语集中表现不均。我们评估了多个生物医学本体中的记忆(训练术语性能)和泛化(验证术语性能)。对Llama 3.1 8B的微调揭示了不同术语集之间的显著差异。GO映射显示出强大的记忆增益(术语到标识符的准确率提高了高达77%),而HPO显示出最小的改进。泛化仅发生在蛋白质-基因(GENE)映射中(增益13.9%),而对HPO和GO的微调产生的迁移效果可以忽略不计。基线准确率因模型规模而异,GPT-4o在所有术语集中均优于Llama变体。嵌入分析显示基因符号和蛋白质名称之间具有紧密的语义对齐,但GO或HPO的术语和标识符之间的对齐较弱,这与有限的词汇化一致。微调的成功取决于两个相互作用的因素:标识符的流行度和词汇化。流行的标识符更可能在预训练期间遇到,从而增强记忆。词汇化的标识符(如基因符号)实现了语义泛化。相比之下,GO和HPO中的任意标识符将模型限制为死记硬背。这些发现提供了一个预测框架,用于预测微调何时增强事实回忆,以及何时由于稀疏或非词汇化的标识符而失败。
🔬 方法详解
问题定义:论文旨在解决生物医学领域中,如何有效地将自然语言描述的生物医学术语映射到标准化的标识符的问题。现有方法,特别是基于大型语言模型的方法,在不同类型的生物医学术语集上表现差异很大,有些术语集微调后效果显著,而另一些则几乎没有提升,甚至出现负迁移。这表明现有方法在泛化能力上存在不足,无法很好地适应不同类型的生物医学知识库。
核心思路:论文的核心思路是探究大型语言模型在生物医学术语归一化任务中的记忆和泛化能力,并分析影响这些能力的因素。作者认为,标识符的流行度和词汇化程度是关键因素。流行的标识符在预训练阶段更容易被模型学习,从而更容易记忆。而词汇化的标识符,例如基因符号,能够帮助模型建立术语和标识符之间的语义联系,从而实现泛化。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择不同的生物医学本体(GO, HPO, GENE)作为数据集。2) 使用Llama 3.1 8B和GPT-4o等大型语言模型作为基础模型。3) 对这些模型进行微调,使其能够将生物医学术语映射到对应的标识符。4) 评估模型在训练集(记忆)和验证集(泛化)上的性能。5) 进行嵌入分析,研究术语和标识符之间的语义关系。6) 分析标识符的流行度和词汇化程度对模型性能的影响。
关键创新:论文最重要的技术创新点在于,它揭示了标识符的流行度和词汇化程度是影响大型语言模型在生物医学术语归一化任务中记忆和泛化能力的关键因素。这一发现为如何有效地利用大型语言模型进行生物医学知识库的构建和维护提供了重要的指导。与现有方法相比,该研究不仅关注模型的性能,更深入地分析了影响性能的内在原因。
关键设计:论文的关键设计包括:1) 选择具有不同特征的生物医学本体(GO, HPO, GENE)作为数据集,以便进行对比分析。2) 使用Llama 3.1 8B和GPT-4o等不同规模的大型语言模型,以研究模型规模对性能的影响。3) 采用标准的微调方法,并使用准确率作为评估指标。4) 使用嵌入分析技术,研究术语和标识符之间的语义关系。5) 通过统计分析,量化标识符的流行度和词汇化程度。
🖼️ 关键图片
📊 实验亮点
Llama 3.1 8B微调后,GO映射的术语到标识符准确率提升高达77%,但HPO提升甚微。GENE映射实现了13.9%的泛化增益。GPT-4o在所有术语集中均优于Llama变体。嵌入分析证实基因符号和蛋白质名称语义对齐紧密,而GO和HPO的术语与标识符对齐较弱。
🎯 应用场景
该研究成果可应用于生物医学知识库的自动构建和维护,提高数据集成效率和语义互操作性。通过理解模型泛化能力的限制,可以更有针对性地设计微调策略,提升生物医学信息检索、文本挖掘和药物研发等领域的应用效果。未来,该研究或可扩展到其他领域的知识图谱构建。
📄 摘要(原文)
Effective biomedical data integration depends on automated term normalization, the mapping of natural language biomedical terms to standardized identifiers. This linking of terms to identifiers is essential for semantic interoperability. Large language models (LLMs) show promise for this task but perform unevenly across terminologies. We evaluated both memorization (training-term performance) and generalization (validation-term performance) across multiple biomedical ontologies. Fine-tuning Llama 3.1 8B revealed marked differences by terminology. GO mappings showed strong memorization gains (up to 77% improvement in term-to-identifier accuracy), whereas HPO showed minimal improvement. Generalization occurred only for protein-gene (GENE) mappings (13.9% gain), while fine-tuning for HPO and GO yielded negligible transfer. Baseline accuracy varied by model scale, with GPT-4o outperforming both Llama variants for all terminologies. Embedding analyses showed tight semantic alignment between gene symbols and protein names but weak alignment between terms and identifiers for GO or HPO, consistent with limited lexicalization. Fine-tuning success depended on two interacting factors: identifier popularity and lexicalization. Popular identifiers were more likely encountered during pretraining, enhancing memorization. Lexicalized identifiers, such as gene symbols, enabled semantic generalization. By contrast, arbitrary identifiers in GO and HPO constrained models to rote learning. These findings provide a predictive framework for when fine-tuning enhances factual recall versus when it fails due to sparse or non-lexicalized identifiers.