Zero-shot generation of synthetic neurosurgical data with large language models
作者: Austin A. Barr, Eddie Guo, Emre Sezgin
分类: cs.CL, cs.LG
发布日期: 2025-02-13 (更新: 2025-02-17)
备注: 13 pages, 4 figures, 4 tables (updated version, fixed typos and formatting)
期刊: Neurosurg Focus 59(1), E17 (2025)
DOI: 10.3171/2025.4.FOCUS25225
💡 一句话要点
利用大型语言模型零样本生成合成神经外科数据,解决数据稀缺问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成数据生成 大型语言模型 神经外科 零样本学习 数据增强
📋 核心要点
- 神经外科研究受限于真实数据获取的困难,包括数据稀缺、隐私限制和预处理成本。
- 利用大型语言模型GPT-4o,在零样本条件下生成高质量的合成神经外科数据,无需微调或真实数据。
- 实验表明,GPT-4o生成的数据在保真度、效用和隐私方面均优于或匹配CTGAN,可用于训练机器学习模型。
📝 摘要(中文)
临床数据对于推动神经外科研究至关重要,但获取往往受限于数据可用性、小样本量、隐私法规以及资源密集型预处理和去标识化程序。合成数据为解决与访问和使用真实世界数据(RWD)相关的挑战提供了一种潜在的解决方案。本研究旨在评估大型语言模型(LLM)GPT-4o零样本生成合成神经外科数据的能力,并通过条件表格生成对抗网络(CTGAN)进行基准测试。将合成数据集与真实世界神经外科数据进行比较,以评估保真度(均值、比例、分布和双变量相关性)、效用(RWD上的ML分类器性能)和隐私(RWD中记录的重复)。GPT-4o生成的数据集匹配或超过了CTGAN的性能,尽管没有针对RWD进行微调或访问以进行预训练。数据集表现出对RWD的高单变量和双变量保真度,而没有直接暴露任何真实患者记录,即使在放大的样本量下也是如此。在GPT-4o生成的数据上训练ML分类器并在RWD上进行测试以进行二元预测任务,显示F1分数为0.706,与在CTGAN数据上训练(0.705)以预测术后功能状态恶化的性能相当。GPT-4o展示了生成高保真度合成神经外科数据的有希望的能力。这些发现还表明,用GPT-4o合成的数据可以有效地扩充小样本量的临床数据,并训练ML模型以预测神经外科结果。有必要进一步研究以改善分布特征的保存并提高分类器性能。
🔬 方法详解
问题定义:神经外科研究面临真实数据获取困难的问题,包括数据量不足、隐私保护要求高以及数据预处理成本高等挑战。现有方法,如CTGAN,虽然可以生成合成数据,但需要针对特定数据集进行训练,泛化能力有限。
核心思路:利用大型语言模型(LLM)强大的生成能力,在零样本条件下直接生成合成神经外科数据。核心在于利用LLM对医学知识的理解,无需针对特定数据集进行微调,从而提高生成数据的泛化能力和效率。
技术框架:该研究直接使用GPT-4o模型,通过提示工程(prompt engineering)指导模型生成符合神经外科数据特征的表格数据。没有复杂的训练或微调过程,而是依赖于LLM自身的知识和推理能力。主要流程包括:1) 设计合适的提示语,描述所需数据的特征和格式;2) 使用GPT-4o生成合成数据;3) 对生成的数据进行评估,包括保真度、效用和隐私性。
关键创新:该研究的关键创新在于利用大型语言模型在零样本条件下生成合成医学数据。与传统的生成模型(如GAN)相比,无需针对特定数据集进行训练,大大降低了数据生成成本,并提高了模型的泛化能力。此外,该方法在保护患者隐私方面具有天然优势,因为生成的数据不包含任何真实患者信息。
关键设计:研究中使用了GPT-4o模型,并设计了特定的提示语来指导模型生成数据。提示语的设计需要充分考虑神经外科数据的特征,包括变量类型、取值范围和相互关系。此外,研究还采用了多种评估指标来衡量生成数据的质量,包括单变量和双变量分布的相似性、机器学习模型的性能以及隐私保护程度。
🖼️ 关键图片
📊 实验亮点
GPT-4o在零样本条件下生成的合成数据,在F1 score (0.706)上与CTGAN (0.705) 性能相当,用于预测术后功能状态恶化。该方法无需微调或访问真实数据,即可生成高保真度的合成数据,有效保护患者隐私,并可用于训练机器学习模型。
🎯 应用场景
该研究成果可应用于神经外科研究的数据增强、模型训练和隐私保护。合成数据可以扩充小样本量的临床数据集,用于训练机器学习模型,辅助医生进行诊断和治疗决策。此外,合成数据还可以用于公开数据集的发布,避免泄露患者隐私,促进医学研究的开放共享。
📄 摘要(原文)
Clinical data is fundamental to advance neurosurgical research, but access is often constrained by data availability, small sample sizes, privacy regulations, and resource-intensive preprocessing and de-identification procedures. Synthetic data offers a potential solution to challenges associated with accessing and using real-world data (RWD). This study aims to evaluate the capability of zero-shot generation of synthetic neurosurgical data with a large language model (LLM), GPT-4o, by benchmarking with the conditional tabular generative adversarial network (CTGAN). Synthetic datasets were compared to real-world neurosurgical data to assess fidelity (means, proportions, distributions, and bivariate correlations), utility (ML classifier performance on RWD), and privacy (duplication of records from RWD). The GPT-4o-generated datasets matched or exceeded CTGAN performance, despite no fine-tuning or access to RWD for pre-training. Datasets demonstrated high univariate and bivariate fidelity to RWD without directly exposing any real patient records, even at amplified sample size. Training an ML classifier on GPT-4o-generated data and testing on RWD for a binary prediction task showed an F1 score (0.706) with comparable performance to training on the CTGAN data (0.705) for predicting postoperative functional status deterioration. GPT-4o demonstrated a promising ability to generate high-fidelity synthetic neurosurgical data. These findings also indicate that data synthesized with GPT-4o can effectively augment clinical data with small sample sizes, and train ML models for prediction of neurosurgical outcomes. Further investigation is necessary to improve the preservation of distributional characteristics and boost classifier performance.