Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks

📄 arXiv: 2405.06695v1 📥 PDF

作者: Chancellor R. Woolsey, Prakash Bisht, Joshua Rothman, Gondy Leroy

分类: cs.CL, cs.AI

发布日期: 2024-05-08

备注: Published in 2024 American Medical Informatics Association (AMIA) Summit March 18-21


💡 一句话要点

利用大型语言模型生成合成数据提升BERT模型在医疗领域的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 合成数据 BERT 医疗诊断 数据增强 自闭症谱系障碍 机器学习

📋 核心要点

  1. 医疗领域缺乏专家,机器学习模型有潜力辅助诊断,但训练数据获取成本高昂。
  2. 利用大型语言模型生成合成数据,扩充现有医疗数据集,以提升模型性能。
  3. 实验表明,使用合成数据增强后,BERT模型的召回率提升了13%,但精确率有所下降。

📝 摘要(中文)

医疗领域专家匮乏是一个重要问题。机器学习(ML)模型可以通过辅助诊断来解决这个问题。然而,创建足够大的数据集来训练这些模型成本高昂。我们评估了大型语言模型(LLMs)在数据创建方面的能力。以自闭症谱系障碍(ASD)为例,我们提示ChatGPT和GPT-Premium生成4200个合成观测数据,以扩充现有的医疗数据。我们的目标是标注与自闭症标准相对应的行为,并通过合成训练数据提高模型准确性。我们使用在生物医学文献上预训练的BERT分类器来评估模型性能的差异。临床医生评估了LLM生成数据中的一个随机样本(N=140),发现包含83%的正确示例-标签对。数据增强使召回率提高了13%,但精确率降低了16%,这与更高质量和更低准确率的配对相关。未来的工作将分析不同的合成数据特征如何影响ML结果。

🔬 方法详解

问题定义:论文旨在解决医疗领域中机器学习模型训练数据不足的问题。现有方法依赖于人工标注,成本高昂且耗时,限制了模型在实际应用中的部署。因此,如何低成本地获取高质量的训练数据成为关键挑战。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大生成能力,自动生成合成数据,并将其用于增强现有的医疗数据集。通过这种方式,可以显著降低数据获取的成本,并提高模型的泛化能力。

技术框架:整体流程包括以下几个阶段:1) 使用ChatGPT和GPT-Premium等LLM,根据自闭症谱系障碍(ASD)的特征,生成包含行为描述和对应标签的合成数据;2) 将生成的合成数据与现有医疗数据合并,构建增强后的训练数据集;3) 使用在生物医学文献上预训练的BERT分类器,在增强后的数据集上进行训练;4) 评估模型在测试集上的性能,并与使用原始数据集训练的模型进行比较。

关键创新:论文的关键创新在于探索了使用LLM生成合成数据来解决医疗领域数据稀缺问题的方法。与传统的数据增强方法相比,LLM能够生成更具多样性和真实性的数据,从而更有效地提升模型性能。此外,论文还对合成数据的质量进行了评估,并分析了不同合成数据特征对模型性能的影响。

关键设计:论文使用了ChatGPT和GPT-Premium两种LLM,通过精心设计的prompt来引导LLM生成高质量的合成数据。同时,论文还采用了一种基于BERT的分类器,该分类器在生物医学文献上进行了预训练,能够更好地理解医疗文本的语义信息。此外,论文还对合成数据的数量和质量进行了控制,以确保其能够有效地提升模型性能。

📊 实验亮点

实验结果表明,使用LLM生成的合成数据增强后,BERT模型的召回率提高了13%。虽然精确率略有下降(16%),但临床医生评估表明,LLM生成的数据中83%的示例-标签对是正确的,表明LLM具有生成高质量合成数据的潜力。该研究验证了利用LLM解决医疗数据稀缺问题的可行性。

🎯 应用场景

该研究成果可应用于医疗诊断辅助系统,尤其是在罕见疾病或缺乏专家资源的领域。通过生成合成数据,可以有效解决数据稀缺问题,提升机器学习模型在医疗领域的应用价值,并有望加速疾病诊断和治疗的进程。未来,该方法还可扩展到其他领域,如金融、教育等。

📄 摘要(原文)

An important issue impacting healthcare is a lack of available experts. Machine learning (ML) models could resolve this by aiding in diagnosing patients. However, creating datasets large enough to train these models is expensive. We evaluated large language models (LLMs) for data creation. Using Autism Spectrum Disorders (ASD), we prompted ChatGPT and GPT-Premium to generate 4,200 synthetic observations to augment existing medical data. Our goal is to label behaviors corresponding to autism criteria and improve model accuracy with synthetic training data. We used a BERT classifier pre-trained on biomedical literature to assess differences in performance between models. A random sample (N=140) from the LLM-generated data was evaluated by a clinician and found to contain 83% correct example-label pairs. Augmenting data increased recall by 13% but decreased precision by 16%, correlating with higher quality and lower accuracy across pairs. Future work will analyze how different synthetic data traits affect ML outcomes.