Two Directions for Clinical Data Generation with Large Language Models: Data-to-Label and Label-to-Data

📄 arXiv: 2401.06774v1 📥 PDF

作者: Rumeng Li, Xun Wang, Hong Yu

分类: cs.CL

发布日期: 2023-12-09

备注: Appear in EMNLP2023 Findings

DOI: 10.18653/v1/2023.findings-emnlp.474


💡 一句话要点

提出基于大语言模型的临床数据生成方法以检测阿尔茨海默病相关症状

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 临床数据生成 阿尔茨海默病 电子健康记录 数据挖掘 合成数据 机器学习

📋 核心要点

  1. 现有的临床数据稀缺且敏感,尤其是在阿尔茨海默病相关症状的检测任务中,传统方法面临高专业性要求的挑战。
  2. 本文提出了基于大语言模型的两种数据生成方法:'数据到标签'和'标签到数据',以增强临床数据的生成和利用。
  3. 实验结果显示,使用合成数据集(银色和铜色数据集)显著提高了系统性能,超越了仅依赖专家标注的金色数据集的效果。

📝 摘要(中文)

大语言模型(LLMs)能够为多个领域和任务生成自然语言文本,但其在临床文本挖掘中的潜力尚未得到充分探索。本文研究了LLMs在电子健康记录(EHRs)中增强阿尔茨海默病(AD)相关症状检测的数据生成能力。我们基于专家知识创建了一种新的AD症状进展分类法,指导LLMs通过“数据到标签”和“标签到数据”两种方式生成合成数据。实验结果表明,使用合成数据集显著提升了系统性能,超越了仅使用专家标注数据集的效果,证明了LLMs在复杂任务中生成合成临床数据的有效性。

🔬 方法详解

问题定义:本文旨在解决阿尔茨海默病相关症状检测中临床数据稀缺的问题。现有方法依赖于专家标注,导致数据获取困难且成本高昂。

核心思路:通过大语言模型生成合成临床数据,结合专家知识,采用“数据到标签”和“标签到数据”两种方法,增强数据集的多样性和可用性。

技术框架:整体流程包括数据收集、专家知识分类、LLM生成合成数据、以及基于生成数据训练AD症状检测系统。主要模块包括数据标注、合成数据生成和模型训练。

关键创新:本文的创新点在于提出了基于专家知识的合成数据生成方法,尤其是“标签到数据”方法,能够在不泄露敏感信息的情况下生成高质量数据。

关键设计:在数据生成过程中,设置了特定的损失函数以优化生成文本的质量,并采用了适合临床文本特征的网络结构,以确保生成数据的有效性和准确性。

📊 实验亮点

实验结果表明,使用银色和铜色数据集的系统性能显著提升,超越了仅使用金色数据集的系统,具体提升幅度未知。这一发现验证了大语言模型在生成合成临床数据方面的有效性,尤其是在复杂的医疗任务中。

🎯 应用场景

该研究的潜在应用领域包括医疗数据挖掘、电子健康记录分析和疾病早期检测等。通过生成合成数据,能够帮助医疗研究人员和临床医生更好地理解和识别阿尔茨海默病的早期症状,提升临床决策的准确性和效率。未来,该方法还可扩展至其他疾病的症状检测和临床数据生成。

📄 摘要(原文)

Large language models (LLMs) can generate natural language texts for various domains and tasks, but their potential for clinical text mining, a domain with scarce, sensitive, and imbalanced medical data, is underexplored. We investigate whether LLMs can augment clinical data for detecting Alzheimer's Disease (AD)-related signs and symptoms from electronic health records (EHRs), a challenging task that requires high expertise. We create a novel pragmatic taxonomy for AD sign and symptom progression based on expert knowledge, which guides LLMs to generate synthetic data following two different directions: "data-to-label", which labels sentences from a public EHR collection with AD-related signs and symptoms; and "label-to-data", which generates sentences with AD-related signs and symptoms based on the label definition. We train a system to detect AD-related signs and symptoms from EHRs, using three datasets: (1) a gold dataset annotated by human experts on longitudinal EHRs of AD patients; (2) a silver dataset created by the data-to-label method; and (3) a bronze dataset created by the label-to-data method. We find that using the silver and bronze datasets improves the system performance, outperforming the system using only the gold dataset. This shows that LLMs can generate synthetic clinical data for a complex task by incorporating expert knowledge, and our label-to-data method can produce datasets that are free of sensitive information, while maintaining acceptable quality.