DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models
作者: Ying Zhou, Xinyao Wang, Yulei Niu, Yaojie Shen, Lexin Tang, Fan Chen, Ben He, Le Sun, Longyin Wen
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-11-05 (更新: 2025-06-10)
备注: 21 pages, 9 figures, Accepted by ACL 2025, Findings
🔗 代码/项目: GITHUB
💡 一句话要点
DiffLM:通过扩散语言模型实现可控的合成数据生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 合成数据生成 变分自编码器 大型语言模型 可控生成
📋 核心要点
- 利用LLM合成数据面临挑战,因为LLM对目标数据分布理解有限,且提示工程复杂,尤其对于结构化数据。
- DiffLM基于VAE,利用扩散模型保留原始分布信息,并通过潜在特征注入模块解耦学习目标。
- 实验表明,DiffLM在结构化数据上生成高质量数据,下游任务性能超越真实数据2%-7%。
📝 摘要(中文)
大型语言模型(LLM)的最新进展显著增强了其知识和生成能力,从而引发了利用LLM进行高质量数据合成的兴趣。然而,通过提示LLM进行合成数据生成仍然具有挑战性,因为LLM对目标数据分布的理解有限,并且提示工程非常复杂,特别是对于结构化格式数据。为了解决这些问题,我们引入了DiffLM,这是一个基于变分自编码器(VAE)的可控数据合成框架,它进一步(1)利用扩散模型在学习到的潜在分布中保留更多原始分布和格式结构的信息,以及(2)通过即插即用的潜在特征注入模块,将目标分布知识的学习与LLM的生成目标解耦。由于我们观察到VAE的潜在表示与真实数据分布之间存在显著差异,因此在我们的框架中引入了潜在扩散模块,以学习完全表达的潜在分布。在七个具有结构化格式数据(即表格数据、代码数据和工具数据)的真实世界数据集上的评估表明,DiffLM生成高质量的数据,在下游任务上的性能在某些情况下超过真实数据2%-7%。
🔬 方法详解
问题定义:论文旨在解决利用大型语言模型(LLM)生成高质量合成数据时遇到的问题。现有方法,如直接提示LLM,受限于LLM对目标数据分布的理解不足,以及复杂且耗时的提示工程,尤其是在处理结构化格式数据时,效果不佳。
核心思路:DiffLM的核心思路是将数据生成过程分解为两个阶段:首先,使用变分自编码器(VAE)学习数据的潜在表示;然后,利用扩散模型在潜在空间中生成新的数据点。通过这种方式,DiffLM能够更好地保留原始数据的分布信息和结构,并解耦目标分布知识的学习与LLM的生成目标。
技术框架:DiffLM的整体框架包括三个主要模块:1) 变分自编码器(VAE):用于学习原始数据的潜在表示。2) 潜在扩散模型:用于在VAE的潜在空间中生成新的数据点,弥补VAE潜在表示与真实数据分布的差异。3) 潜在特征注入模块:一个即插即用的模块,用于将目标分布的知识注入到LLM的生成过程中,从而实现可控的数据生成。
关键创新:DiffLM的关键创新在于引入了潜在扩散模型,以学习完全表达的潜在分布。与传统的VAE相比,扩散模型能够更好地捕捉原始数据的复杂分布,从而生成更逼真的合成数据。此外,即插即用的潜在特征注入模块允许用户灵活地控制生成数据的属性,例如,可以指定生成特定类型的表格数据或代码。
关键设计:DiffLM使用标准的VAE架构,并在此基础上添加了扩散模型。扩散模型采用U-Net结构,并使用高斯噪声进行训练。潜在特征注入模块通过将额外的特征向量添加到扩散模型的输入中来实现。损失函数包括VAE的重构损失、扩散模型的噪声预测损失以及一个可选的正则化项,用于鼓励潜在表示的平滑性。
🖼️ 关键图片
📊 实验亮点
DiffLM在七个真实世界数据集(包括表格数据、代码数据和工具数据)上进行了评估。实验结果表明,DiffLM生成的数据质量很高,在下游任务上的性能在某些情况下超过了真实数据2%-7%。例如,在某个表格数据集上,使用DiffLM生成的数据训练的模型比使用真实数据训练的模型准确率提高了5%。
🎯 应用场景
DiffLM可应用于各种需要合成数据的场景,例如:数据增强、隐私保护、模型训练等。在金融、医疗、法律等领域,由于数据获取困难或涉及隐私问题,DiffLM可以生成高质量的合成数据,用于训练机器学习模型,提高模型性能,并降低数据收集成本。此外,DiffLM还可以用于生成对抗样本,以提高模型的鲁棒性。
📄 摘要(原文)
Recent advancements in large language models (LLMs) have significantly enhanced their knowledge and generative capabilities, leading to a surge of interest in leveraging LLMs for high-quality data synthesis. However, synthetic data generation via prompting LLMs remains challenging due to LLMs' limited understanding of target data distributions and the complexity of prompt engineering, especially for structured formatted data. To address these issues, we introduce DiffLM, a controllable data synthesis framework based on variational autoencoder (VAE), which further (1) leverages diffusion models to reserve more information of original distribution and format structure in the learned latent distribution and (2) decouples the learning of target distribution knowledge from the LLM's generative objectives via a plug-and-play latent feature injection module. As we observed significant discrepancies between the VAE's latent representations and the real data distribution, the latent diffusion module is introduced into our framework to learn a fully expressive latent distribution. Evaluations on seven real-world datasets with structured formatted data (i.e., Tabular, Code, and Tool data) demonstrate that DiffLM generates high-quality data, with performance on downstream tasks surpassing that of real data by 2%-7% in certain cases. Data and code are available at https://github.com/bytedance/DiffLM.