The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks

📄 arXiv: 2504.15160v1 📥 PDF

作者: Joan C. Timoneda

分类: cs.CL

发布日期: 2025-04-21


💡 一句话要点

提出合成插补方法,利用生成式LLM为监督分类任务中代表性不足的类别生成最优合成文本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据 数据增强 大型语言模型 文本分类 数据不平衡

📋 核心要点

  1. 监督分类任务中,训练数据各类别的样本数量不平衡是影响LLM性能的关键问题,尤其是在某些类别样本稀缺的情况下。
  2. 合成插补方法利用GPT-4o等生成式LLM,通过少量原始样本和精心设计的提示,生成高质量的合成文本,扩充稀缺类别的数据。
  3. 实验结果表明,当原始样本数量达到一定阈值时,合成插补方法能够达到与使用完整原始样本相当的性能,并有效控制过拟合。

📝 摘要(中文)

本文探讨了在监督分类任务中,使用BERT和RoBERTa等编码器-解码器大型语言模型(LLMs)时,训练数据中各类别的充分代表性问题。当构建高质量训练集时,往往难以找到足够多的各类别的样本。针对此问题,本文提出了一种解决方案,即合成插补方法。该方法利用生成式LLM(GPT-4o),通过精心设计的提示和从样本中随机抽取(有放回)的五个原始示例来生成合成文本。这种方法确保了新的合成文本与原始文本充分不同,从而减少过拟合,同时保留了示例的潜在实质含义,以最大化样本外性能。结果表明,当原始样本数量达到75个或更多时,合成插补的性能与完整原始文本样本相当,并且过拟合保持在较低水平,可以通过50个原始样本进行预测和校正。合成插补方法为生成式LLM在研究中提供了一种新的应用,并允许应用研究人员平衡数据集以获得最佳性能。

🔬 方法详解

问题定义:在监督分类任务中,当某些类别的样本数量明显少于其他类别时,训练出的模型容易对多数类别产生偏见,导致对少数类别的识别精度较低。现有的数据增强方法可能无法有效解决这个问题,或者引入噪声,影响模型性能。

核心思路:利用生成式LLM强大的文本生成能力,通过少量原始样本“模仿”目标类别的文本特征,生成大量高质量的合成样本。核心在于通过精心设计的prompt,引导LLM生成既与原始样本相似,又具有一定差异性的文本,从而避免过拟合。

技术框架:该方法主要包含以下几个步骤:1) 从原始数据集中选择代表性不足的类别;2) 从该类别中随机抽取(有放回)少量原始样本(例如5个);3) 设计合适的prompt,将原始样本输入生成式LLM(如GPT-4o);4) LLM根据prompt生成新的合成文本;5) 将合成文本添加到训练集中,重新训练分类模型。

关键创新:该方法的核心创新在于利用生成式LLM的zero-shot或few-shot学习能力,仅需少量原始样本即可生成大量高质量的合成数据,有效解决了数据稀缺问题。与传统数据增强方法相比,合成插补方法能够生成更具多样性和语义一致性的样本,从而提高模型的泛化能力。

关键设计:Prompt的设计至关重要,需要包含明确的指令,例如指定文本的风格、主题、长度等,以及原始样本作为参考。原始样本的数量(例如5个)需要根据具体任务进行调整,以平衡生成文本的质量和多样性。此外,可以采用不同的采样策略(例如有放回采样)来增加样本的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当原始样本数量达到75个或更多时,使用合成插补方法训练的模型性能与使用完整原始文本样本训练的模型性能相当。即使只有50个原始样本,该方法也能有效控制过拟合,并且过拟合程度可以预测和校正。这表明合成插补方法能够显著减少对大量标注数据的依赖,降低数据收集和标注成本。

🎯 应用场景

该方法可广泛应用于各种文本分类任务中,尤其适用于医疗诊断、金融欺诈检测、法律文本分析等领域,这些领域往往存在某些类别样本稀缺的问题。通过合成插补方法,可以有效平衡数据集,提高模型在少数类别上的识别精度,从而提升整体性能和可靠性。该方法还可以用于生成对抗样本,增强模型的鲁棒性。

📄 摘要(原文)

Encoder-decoder Large Language Models (LLMs), such as BERT and RoBERTa, require that all categories in an annotation task be sufficiently represented in the training data for optimal performance. However, it is often difficult to find sufficient examples for all categories in a task when building a high-quality training set. In this article, I describe this problem and propose a solution, the synthetic imputation approach. Leveraging a generative LLM (GPT-4o), this approach generates synthetic texts based on careful prompting and five original examples drawn randomly with replacement from the sample. This approach ensures that new synthetic texts are sufficiently different from the original texts to reduce overfitting, but retain the underlying substantive meaning of the examples to maximize out-of-sample performance. With 75 original examples or more, synthetic imputation's performance is on par with a full sample of original texts, and overfitting remains low, predictable and correctable with 50 original samples. The synthetic imputation approach provides a novel role for generative LLMs in research and allows applied researchers to balance their datasets for best performance.