CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs

作者: Suhas S Kowshik, Abhishek Divekar, Vijit Malik

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-13

备注: Published as a main conference paper at EMNLP 2024; First two authors contributed equally

💡 一句话要点

CorrSynth：一种基于相关采样的LLM多样化数据集生成方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据合成 多样性生成 相关采样 解码时指导 数据集构建 学生模型训练

📋 核心要点

现有LLM生成数据方法存在多样性不足、对prompt依从性差以及潜在偏差等问题，限制了其在数据合成方面的应用。
CorrSynth提出一种基于解码时指导的相关采样策略，旨在生成更多样化且更符合输入提示的数据集。
实验结果表明，CorrSynth在学生模型指标和内在多样性指标上均优于现有基线方法，验证了其有效性。

📝 摘要（中文）

大型语言模型（LLM）在零样本和少样本提示下，已在各种任务中展现出卓越的性能。近年来，它们的数据合成能力得到了充分的研究，但生成的数据存在多样性不足、对提示的依从性较差以及生成模型中潜在偏差等问题。本文旨在解决生成具有高多样性的数据集的挑战，并在此基础上训练用于下游任务的学生模型。我们提出 CorrSynth，它采用基于解码时指导的相关采样策略，生成更多样化且更符合输入提示的数据。此外，我们的方法克服了诸如基于分类器的指导等其他一些基于指导的技术的复杂性缺点。通过大量的实验，我们展示了我们方法的有效性并证实了我们的主张。特别是，我们进行了内在评估以显示多样性的改进。我们的实验表明，在四个数据集上，CorrSynth 在学生指标和内在指标上都优于有竞争力的基线，显示了我们方法的内在优势。

🔬 方法详解

问题定义：论文旨在解决利用大型语言模型（LLM）生成数据集时，数据多样性不足、对prompt的依从性较差以及潜在偏差等问题。现有方法在生成高质量、多样化的数据集方面存在局限性，影响了下游任务中学生模型的训练效果。

核心思路：CorrSynth的核心思路是利用相关采样策略，在解码时对LLM的生成过程进行指导，从而生成更多样化且更符合输入prompt的数据。通过引入相关性，鼓励模型探索不同的生成路径，避免陷入局部最优解，从而提高数据的多样性。

技术框架：CorrSynth的技术框架主要包括以下几个阶段：1) Prompt设计：设计清晰明确的prompt，引导LLM生成目标数据。2) 相关采样：利用相关采样策略，从LLM的输出分布中选择多个候选样本。3) 筛选与过滤：对候选样本进行筛选和过滤，去除不符合prompt要求或质量较差的样本。4) 数据集构建：将筛选后的样本组成最终的数据集，用于训练下游任务的学生模型。

关键创新：CorrSynth的关键创新在于提出了基于相关采样的解码时指导策略。与传统的解码方法相比，CorrSynth能够更有效地探索LLM的生成空间，生成更多样化的数据。此外，CorrSynth还克服了诸如基于分类器的指导等其他一些基于指导的技术的复杂性缺点，降低了计算成本。

关键设计：CorrSynth的关键设计包括：1) 相关性度量：选择合适的度量方式来衡量不同样本之间的相关性，例如余弦相似度或互信息。2) 采样策略：设计有效的采样策略，例如基于马尔可夫链蒙特卡洛（MCMC）的方法，从LLM的输出分布中选择具有一定相关性的样本。3) 筛选标准：制定明确的筛选标准，例如基于规则或基于模型的质量评估，去除不符合要求的样本。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CorrSynth在四个数据集上均优于现有基线方法。在学生模型指标方面，CorrSynth能够显著提高模型的准确率和F1值。在内在多样性指标方面，CorrSynth生成的数据集具有更高的熵和更低的重复率，表明其具有更好的多样性。例如，在某个图像分类数据集上，CorrSynth将学生模型的准确率提高了5个百分点。

🎯 应用场景

CorrSynth可应用于各种需要高质量、多样化数据集的场景，例如图像分类、文本生成、自然语言理解等。通过生成更具代表性的训练数据，可以提高学生模型在下游任务中的性能和泛化能力。此外，该方法还可以用于数据增强，扩充现有数据集，从而改善模型的鲁棒性。

📄 摘要（原文）

Large language models (LLMs) have demonstrated remarkable performance in diverse tasks using zero-shot and few-shot prompting. Even though their capabilities of data synthesis have been studied well in recent years, the generated data suffers from a lack of diversity, less adherence to the prompt, and potential biases that creep into the data from the generator model. In this work, we tackle the challenge of generating datasets with high diversity, upon which a student model is trained for downstream tasks. Taking the route of decoding-time guidance-based approaches, we propose CorrSynth, which generates data that is more diverse and faithful to the input prompt using a correlated sampling strategy. Further, our method overcomes the complexity drawbacks of some other guidance-based techniques like classifier-based guidance. With extensive experiments, we show the effectiveness of our approach and substantiate our claims. In particular, we perform intrinsic evaluation to show the improvements in diversity. Our experiments show that CorrSynth improves both student metrics and intrinsic metrics upon competitive baselines across four datasets, showing the innate advantage of our method.

CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理