Synthetic Data Generation Using Large Language Models: Advances in Text and Code
作者: Mihai Nadas, Laura Diosan, Andreea Tomescu
分类: cs.CL
发布日期: 2025-03-18 (更新: 2025-07-22)
备注: 24 pages, 6 tables, 1 figure, 64 references
期刊: IEEE Access 13, 134615-134633 (2025)
DOI: 10.1109/ACCESS.2025.3589503
💡 一句话要点
综述:利用大型语言模型生成合成数据,推动文本和代码领域发展。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 合成数据生成 提示工程 数据增强 低资源学习 代码生成 文本生成 偏差缓解
📋 核心要点
- 现有方法在数据稀缺场景下表现不佳,标注成本高昂,且存在数据隐私问题,限制了模型训练和应用。
- 利用大型语言模型生成合成数据,通过提示工程、检索增强等技术,创建高质量、多样化的训练样本。
- 合成数据在低资源任务和代码相关应用中表现出潜力,但需关注生成数据的真实性、偏差和评估问题。
📝 摘要(中文)
本文综述了大型语言模型(LLMs)如何变革自然语言和代码领域中合成训练数据的生成。通过生成人工但与任务相关的示例,这些模型可以显著增强甚至替代真实世界的数据集,尤其是在标注数据稀缺、昂贵或敏感的情况下。本文调研了利用LLMs创建合成文本和代码的最新进展,重点介绍了诸如基于提示的生成、检索增强管道和迭代自精炼等关键技术。我们研究了这些方法如何通过自动验证功能正确性来丰富低资源任务(例如,分类、问答)并促进以代码为中心的应用(例如,指令调优、代码翻译、错误修复)。除了潜在的好处——成本效益、广泛覆盖和可控多样性——我们还讨论了伴随的挑战,包括生成文本中的事实不准确、风格或分布真实性不足以及偏差放大的风险。提出的缓解策略包括过滤和加权合成输出,以及在代码领域中使用执行反馈进行强化学习。最后,我们概述了开放的研究方向,例如自动提示工程、跨模态数据合成和稳健的评估框架,强调了LLM生成的合成数据在加速人工智能发展中的日益重要性,同时强调了伦理和质量保障。
🔬 方法详解
问题定义:论文旨在解决在自然语言处理和代码领域中,真实标注数据稀缺、成本高昂以及涉及隐私敏感信息的问题。现有方法难以在这些场景下有效训练模型,限制了AI技术的发展和应用。
核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的生成能力,通过精心设计的提示(prompts)或其他技术手段,生成高质量的合成数据,作为真实数据的补充或替代,从而解决数据稀缺问题。这种方法旨在降低数据获取成本,提高模型性能,并保护数据隐私。
技术框架:该综述涵盖了多种利用LLM生成合成数据的技术框架,主要包括: 1. 基于提示的生成:通过设计合适的提示词,引导LLM生成特定类型的文本或代码。 2. 检索增强管道:结合信息检索技术,从现有数据集中检索相关信息,并将其作为LLM生成的上下文,提高生成质量。 3. 迭代自精炼:通过迭代生成、评估和改进合成数据,逐步提高其质量和真实性。 4. 结合执行反馈的强化学习:在代码生成领域,利用代码执行结果作为反馈信号,训练LLM生成更可靠的代码。
关键创新:该综述的关键创新在于系统性地总结和分析了利用LLM生成合成数据在文本和代码领域的最新进展,并指出了该领域面临的挑战和未来的研究方向。与以往的研究相比,该综述更全面地覆盖了各种生成技术和应用场景,并深入探讨了合成数据的质量评估和偏差控制问题。
关键设计:不同的生成方法有不同的关键设计。 * Prompt Engineering: 如何设计有效的提示词,以引导LLM生成符合要求的合成数据。 * Retrieval Strategy: 如何从现有数据集中检索相关信息,以提高生成质量。 * Evaluation Metrics: 如何评估合成数据的质量和真实性,例如使用困惑度、BLEU等指标。 * Bias Mitigation: 如何控制合成数据中的偏差,例如通过过滤和加权生成结果。
🖼️ 关键图片
📊 实验亮点
该综述强调了LLM在生成合成数据方面的潜力,并讨论了各种生成技术和应用场景。它还强调了合成数据的质量评估和偏差控制的重要性,并提出了过滤、加权和强化学习等缓解策略。此外,该综述还概述了自动提示工程、跨模态数据合成和稳健的评估框架等开放的研究方向。
🎯 应用场景
该研究成果可广泛应用于低资源语言的机器翻译、代码自动生成与修复、数据增强等领域。通过降低对大规模真实数据的依赖,可以加速AI技术在各个行业的落地,尤其是在医疗、金融等数据敏感领域,具有重要的应用价值和潜力。
📄 摘要(原文)
This survey reviews how large language models (LLMs) are transforming synthetic training data generation in both natural language and code domains. By producing artificial but task-relevant examples, these models can significantly augment or even substitute for real-world datasets, particularly in scenarios where labeled data is scarce, expensive, or sensitive. This paper surveys recent advances in leveraging LLMs to create synthetic text and code, highlighting key techniques such as prompt-based generation, retrieval-augmented pipelines, and iterative self-refinement. We examine how these methods can enrich low-resource tasks (e.g., classification, question answering) and facilitate code-centric applications (e.g., instruction tuning, code translation, bug repair) through automated verification of functional correctness. Alongside potential benefits - cost-effectiveness, broad coverage, and controllable diversity - we discuss the accompanying challenges, including factual inaccuracies in generated text, insufficient stylistic or distributional realism, and risks of bias amplification. Proposed mitigation strategies range from filtering and weighting synthetic outputs to reinforcement learning with execution feedback in code domains. We conclude by outlining open research directions, such as automated prompt engineering, cross-modal data synthesis, and robust evaluation frameworks, underscoring the growing importance of LLM-generated synthetic data in accelerating AI development while emphasizing ethical and quality safeguards.