Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification

📄 arXiv: 2410.10756v1 📥 PDF

作者: Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky

分类: cs.CL

发布日期: 2024-10-14


💡 一句话要点

研究表明,在基于LLM的文本增强分类任务中,随机样本选择策略通常优于更复杂的选择策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本增强 少样本学习 大语言模型 样本选择策略 分类 数据增强 同分布 异分布

📋 核心要点

  1. 现有基于LLM的文本增强方法主要依赖随机选择样本,缺乏对其他选择策略的深入研究。
  2. 该研究对比了多种样本选择策略在LLM文本增强中的效果,着重关注分类器在同分布和异分布数据上的性能。
  3. 实验结果表明,随机样本选择策略在大多数情况下表现良好,更复杂的策略提升有限。

📝 摘要(中文)

生成式大语言模型(LLMs)越来越多地被用于数据增强任务,通过释义(或重新生成)文本样本,然后用于分类器的微调。现有的增强工作通常采用少样本场景,将样本作为提示的一部分提供给LLMs,从而获得更好的增强效果。然而,这些样本大多是随机选择的,缺乏对其他(更“知情”)样本选择策略效果的全面评估。本文比较了少样本学习文献中存在的样本选择策略,并研究了它们在基于LLM的文本增强中的效果。我们评估了模型在同分布和异分布数据上的分类性能。结果表明,虽然一些“知情”的选择策略可以提高模型的性能,尤其是在异分布数据上,但这种情况很少发生,且性能提升幅度很小。除非有进一步的进展,否则随机样本选择仍然是增强实践者的一个不错的默认选择。

🔬 方法详解

问题定义:论文旨在研究在使用大型语言模型(LLMs)进行文本数据增强时,不同的少样本选择策略对最终分类器性能的影响。现有的方法通常采用随机选择样本的方式,缺乏对其他更具信息量的选择策略的系统性评估,这可能导致增强效果不佳,尤其是在处理分布外(out-of-distribution)数据时。

核心思路:论文的核心思路是通过对比多种已有的少样本学习中的样本选择策略,来评估它们在LLM文本增强任务中的有效性。通过实验分析不同选择策略对分类器在同分布和异分布数据上的性能影响,从而为实际应用提供指导。研究假设更“知情”的样本选择策略可能带来更好的增强效果,尤其是在处理异分布数据时。

技术框架:整体流程包括以下几个主要阶段:1) 数据准备:准备用于分类任务的文本数据集,并将其划分为训练集和测试集。2) 样本选择:使用不同的少样本选择策略从训练集中选择少量样本。这些策略包括随机选择以及基于信息量的选择方法。3) LLM文本增强:将选择的样本作为prompt输入到LLM中,生成新的增强文本数据。4) 分类器训练:使用原始训练数据和增强后的数据训练分类器。5) 性能评估:在测试集上评估分类器的性能,包括同分布和异分布数据。

关键创新:该研究的关键创新在于对少样本选择策略在LLM文本增强任务中的系统性评估。虽然少样本学习中存在多种样本选择策略,但很少有工作专门研究它们在文本增强任务中的效果。该研究填补了这一空白,并为实际应用提供了有价值的指导。研究发现,在大多数情况下,简单的随机选择策略表现良好,这与直觉上认为更“知情”的选择策略会更好的想法相悖。

关键设计:论文的关键设计包括:1) 多种样本选择策略的对比:研究对比了随机选择、基于信息量的选择等多种策略。2) 同分布和异分布数据的评估:分别评估了分类器在同分布和异分布数据上的性能,以更全面地了解不同选择策略的效果。3) 使用LLM进行文本增强:利用大型语言模型生成高质量的增强文本数据。4) 分类器性能评估指标:使用准确率、F1值等指标评估分类器的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然某些“知情”的样本选择策略在异分布数据上略有提升,但提升幅度有限,且并非总是有效。在大多数情况下,随机样本选择策略表现出与更复杂策略相当甚至更好的性能。例如,在特定数据集上,随机选择策略的准确率仅比最佳“知情”策略低0.5%,但计算成本却大大降低。

🎯 应用场景

该研究成果可应用于各种文本分类任务,尤其是在数据量有限或需要处理分布外数据的场景下。例如,情感分析、垃圾邮件检测、新闻分类等。研究结果表明,在资源有限的情况下,随机样本选择是一种简单有效的文本增强方法,可以降低算法复杂度和计算成本。未来的研究可以探索更有效的样本选择策略,以进一步提高文本增强的效果。

📄 摘要(原文)

The generative large language models (LLMs) are increasingly used for data augmentation tasks, where text samples are paraphrased (or generated anew) and then used for classifier fine-tuning. Existing works on augmentation leverage the few-shot scenarios, where samples are given to LLMs as part of prompts, leading to better augmentations. Yet, the samples are mostly selected randomly and a comprehensive overview of the effects of other (more informed'') sample selection strategies is lacking. In this work, we compare sample selection strategies existing in few-shot learning literature and investigate their effects in LLM-based textual augmentation. We evaluate this on in-distribution and out-of-distribution classifier performance. Results indicate, that while someinformed'' selection strategies increase the performance of models, especially for out-of-distribution data, it happens only seldom and with marginal performance increases. Unless further advances are made, a default of random sample selection remains a good option for augmentation practitioners.