A Natural Language Processing Approach to Support Biomedical Data Harmonization: Leveraging Large Language Models
作者: Zexu Li, Suraj P. Prabhu, Zachary T. Popp, Shubhi S. Jain, Vijetha Balakundi, Ting Fang Alvin Ang, Rhoda Au, Jinying Chen
分类: cs.CL, cs.LG
发布日期: 2024-11-05
备注: 32 pages, 2 figures
💡 一句话要点
利用大型语言模型进行生物医学数据协调的自然语言处理方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生物医学数据协调 大型语言模型 自然语言处理 集成学习 变量匹配 随机森林 语义相似度
📋 核心要点
- 现有生物医学数据协调方法主要依赖词汇和本体匹配,忽略了变量描述的语义信息,导致匹配精度受限。
- 本研究提出一种基于大型语言模型(LLM)和集成学习的变量匹配方法,充分利用变量标签和定义中的语义信息。
- 实验结果表明,该方法显著提升了变量匹配的准确率,随机森林集成的性能优于单一LLM模型,HR30达到0.98。
📝 摘要(中文)
生物医学研究需要大量且多样化的样本才能产生无偏的结果。自动匹配不同数据集中的变量的方法可以加速这一过程。该领域的研究有限,主要集中于词汇匹配和基于本体的语义匹配。我们旨在开发新的方法,利用大型语言模型(LLM)和集成学习来自动进行变量匹配。我们利用来自两个GERAS队列(欧洲和日本)研究的数据来开发变量匹配方法。首先,我们手动创建了一个数据集,将352个欧盟变量与1322个候选日本变量进行匹配,其中匹配的变量对是正例,不匹配的变量对是负例。使用该数据集,我们开发并评估了两种类型的自然语言处理(NLP)方法,这些方法基于数据字典中的变量标签和定义来匹配变量:(1)基于LLM的方法和(2)模糊匹配。然后,我们开发了一种集成学习方法,使用随机森林模型来集成单个NLP方法。RF在50次试验中进行了训练和评估。每次试验都有一个随机分割(4:1)的训练集和测试集,模型的超参数通过训练集上的交叉验证进行优化。对于每个欧盟变量,基于NLP导出的相似性得分或RF的概率得分对1322个候选日本变量进行排序,表示它们与欧盟变量匹配的可能性。排名性能通过top-n命中率(HRn)和平均倒数排名(MRR)来衡量。E5在单个方法中表现最佳,达到0.90的HR-30和0.70的MRR。在50次试验中,RF在所有指标上均优于E5(P小于0.001),平均HR 30为0.98,MRR为0.73。LLM衍生的特征对RF的性能贡献最大。自动变量匹配中的一个主要错误原因是数据字典中变量定义不明确。
🔬 方法详解
问题定义:生物医学研究中,不同数据集的变量命名和定义方式各异,人工匹配耗时且易出错。现有方法如词汇匹配和基于本体的匹配,无法有效处理语义相似但表达不同的变量,导致数据协调效率低下。
核心思路:利用大型语言模型(LLM)强大的语义理解能力,将变量的标签和定义转化为向量表示,计算变量之间的语义相似度。通过集成多种NLP方法,并结合随机森林模型,提升匹配的鲁棒性和准确性。
技术框架:整体流程包括:1) 数据准备:构建包含欧盟和日本GERAS队列研究变量的数据集,并进行人工标注匹配;2) 特征提取:使用LLM(如E5)和模糊匹配方法提取变量标签和定义的语义特征;3) 模型训练:使用随机森林模型,以提取的语义特征为输入,训练变量匹配模型;4) 模型评估:使用top-n命中率(HRn)和平均倒数排名(MRR)评估模型性能。
关键创新:该方法的核心创新在于:1) 将大型语言模型应用于生物医学数据协调,充分利用了LLM的语义理解能力;2) 采用集成学习方法,融合多种NLP方法的优势,提升了匹配的准确性和鲁棒性。
关键设计:随机森林模型使用交叉验证优化超参数,并采用4:1的训练集和测试集比例。性能评估指标包括HR30和MRR。LLM使用了E5模型,模糊匹配使用了标准算法。数据集中,正例为手动匹配的变量对,负例为不匹配的变量对。
📊 实验亮点
实验结果表明,基于LLM的E5模型在变量匹配任务中表现出色,HR30达到0.90,MRR达到0.70。通过集成学习,随机森林模型进一步提升了匹配性能,HR30达到0.98,MRR达到0.73,显著优于单一的E5模型(P < 0.001)。LLM提取的特征对随机森林的性能贡献最大。
🎯 应用场景
该研究成果可应用于生物医学研究领域,加速不同数据集的整合与分析,提高研究效率。例如,在多中心临床试验中,可以利用该方法自动匹配不同中心的变量,从而实现更大规模的数据分析,发现更可靠的生物标志物和治疗方案。该方法还可扩展到其他领域的数据协调任务。
📄 摘要(原文)
Biomedical research requires large, diverse samples to produce unbiased results. Automated methods for matching variables across datasets can accelerate this process. Research in this area has been limited, primarily focusing on lexical matching and ontology based semantic matching. We aimed to develop new methods, leveraging large language models (LLM) and ensemble learning, to automate variable matching. Methods: We utilized data from two GERAS cohort (European and Japan) studies to develop variable matching methods. We first manually created a dataset by matching 352 EU variables with 1322 candidate JP variables, where matched variable pairs were positive and unmatched pairs were negative instances. Using this dataset, we developed and evaluated two types of natural language processing (NLP) methods, which matched variables based on variable labels and definitions from data dictionaries: (1) LLM-based and (2) fuzzy matching. We then developed an ensemble-learning method, using the Random Forest model, to integrate individual NLP methods. RF was trained and evaluated on 50 trials. Each trial had a random split (4:1) of training and test sets, with the model's hyperparameters optimized through cross-validation on the training set. For each EU variable, 1322 candidate JP variables were ranked based on NLP-derived similarity scores or RF's probability scores, denoting their likelihood to match the EU variable. Ranking performance was measured by top-n hit ratio (HRn) and mean reciprocal rank (MRR). Results:E5 performed best among individual methods, achieving 0.90 HR-30 and 0.70 MRR. RF performed better than E5 on all metrics over 50 trials (P less than 0.001) and achieved an average HR 30 of 0.98 and MRR of 0.73. LLM-derived features contributed most to RF's performance. One major cause of errors in automatic variable matching was ambiguous variable definitions within data dictionaries.