A Scoping Review of Synthetic Data Generation for Biomedical Research and Applications

📄 arXiv: 2506.16594v1 📥 PDF

作者: Hanshu Rao, Weisi Liu, Haohan Wang, I-Chan Huang, Zhe He, Xiaolei Huang

分类: cs.CL

发布日期: 2025-06-19


💡 一句话要点

综述合成数据生成技术以应对生物医学研究中的数据稀缺问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据 生物医学 数据稀缺 隐私保护 大语言模型 临床应用 评估标准

📋 核心要点

  1. 当前生物医学领域面临数据稀缺和隐私保护的挑战,现有合成数据生成方法尚未充分解决这些问题。
  2. 本文通过系统回顾59项研究,提出了合成数据生成的多种方法,强调了临床应用和评估的重要性。
  3. 分析结果显示,合成数据生成在非结构化文本和表格数据方面具有显著应用潜力,且评估方法多样化。

📝 摘要(中文)

合成数据生成技术在生物医学领域的应用日益受到关注,旨在缓解数据稀缺、隐私问题和数据质量挑战。本文遵循PRISMA-ScR指南,系统回顾了2020至2025年间59项相关研究,分析了合成数据生成的临床应用、方法和评估。研究表明,非结构化文本(78.0%)是主要数据形式,生成方法主要包括提示(72.9%)和微调(22.0%)大语言模型。分析还指出了当前在生物医学领域应用合成数据生成的局限性及适应性挑战。

🔬 方法详解

问题定义:本文旨在解决生物医学领域数据稀缺和隐私问题,现有方法在数据质量和适用性上存在不足。

核心思路:通过系统回顾和分析合成数据生成的研究,识别有效的生成方法和评估标准,以促进其在临床应用中的推广。

技术框架:研究遵循PRISMA-ScR指南,收集并分析了59项相关研究,重点关注数据形式、生成方法和评估方式。

关键创新:本文的创新在于系统性地整合了合成数据生成的多种方法,特别是强调了大语言模型在生成过程中的应用。

关键设计:研究中采用了多种评估标准,包括内在指标、人机交互评估和基于LLM的评估,确保了结果的全面性和可靠性。

📊 实验亮点

研究结果显示,合成数据生成在非结构化文本数据生成上占比高达78.0%,而生成方法中提示法的使用率达到72.9%。此外,评估方法的多样性也为合成数据的有效性提供了保障,尤其是人机交互评估占比55.9%。

🎯 应用场景

该研究的潜在应用领域包括临床试验、医疗数据分析和个性化医疗等。通过合成数据生成,研究人员可以在保护患者隐私的同时,获得高质量的数据,从而推动生物医学研究的进展。未来,该技术有望在不同临床领域实现更广泛的应用。

📄 摘要(原文)

Synthetic data generation--mitigating data scarcity, privacy concerns, and data quality challenges in biomedical fields--has been facilitated by rapid advances of large language models (LLMs). This scoping review follows PRISMA-ScR guidelines and synthesizes 59 studies, published between 2020 and 2025 and collected from PubMed, ACM, Web of Science, and Google Scholar. The review systematically examines biomedical research and application trends in synthetic data generation, emphasizing clinical applications, methodologies, and evaluations. Our analysis identifies data modalities of unstructured texts (78.0%), tabular data (13.6%), and multimodal sources (8.4%); generation methods of prompting (72.9%), fine-tuning (22.0%) LLMs and specialized model (5.1%); and heterogeneous evaluations of intrinsic metrics (27.1%), human-in-the-loop assessments (55.9%), and LLM-based evaluations (13.6%). The analysis addresses current limitations in what, where, and how health professionals can leverage synthetic data generation for biomedical domains. Our review also highlights challenges in adaption across clinical domains, resource and model accessibility, and evaluation standardizations.