Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts

📄 arXiv: 2411.14896v1 📥 PDF

作者: Anna Glazkova, Olga Zakharova

分类: cs.CL, cs.CY, cs.SI

发布日期: 2024-11-22

备注: Ivannikov ISPRAS Open Conference (ISPRAS) 2024

期刊: 2024 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2024, pp. 1-7

DOI: 10.1109/ISPRAS64596.2024.10899128


💡 一句话要点

利用LLM提示进行数据增强,提升生态文本多标签分类性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据增强 多标签分类 生态文本 提示工程

📋 核心要点

  1. 现有方法在生态文本多标签分类中面临数据稀缺和类别不平衡的挑战,限制了模型性能。
  2. 该论文提出利用LLM提示进行数据增强,通过重写、生成或结合两种方式来扩充训练数据,提升模型泛化能力。
  3. 实验结果表明,所有数据增强策略均优于基线模型,其中复述原始文本并明确类别信息的提示效果最佳。

📝 摘要(中文)

大型语言模型(LLM)在自然语言处理(NLP)任务中发挥着关键作用,提升了对人类语言的理解、生成和操作能力,应用于翻译、摘要和文本分类等领域。以往研究表明,基于指令的LLM可有效用于数据增强,生成多样且真实的文本样本。本研究应用基于提示的数据增强方法,用于检测俄语社交媒体中提及的绿色实践。检测社交媒体中的绿色实践有助于了解其普及程度,并为扩大环保行动以缓解环境问题提供建议。我们评估了多种提示策略,通过LLM重写现有数据集、生成新数据或结合两种方法来增强文本,用于多标签分类任务。结果表明,与仅在原始数据集上微调的模型相比,所有策略都提高了分类性能,并在大多数情况下优于基线模型。最佳结果是通过复述原始文本并明确指示相关类别的提示获得的。

🔬 方法详解

问题定义:论文旨在解决生态文本多标签分类任务中,因数据量不足和类别不平衡导致模型性能受限的问题。现有方法难以有效识别社交媒体中提及的绿色实践,阻碍了对环保行动普及程度的评估和相关建议的制定。

核心思路:核心思路是利用大型语言模型(LLM)强大的文本生成和理解能力,通过不同的提示策略来增强原始数据集。通过生成新的、多样化的文本样本,可以有效扩充训练数据,提高模型对不同表达方式的鲁棒性,从而提升分类性能。

技术框架:整体框架包括以下步骤:1) 设计不同的LLM提示策略,包括重写现有文本、生成新文本以及结合两种方法;2) 使用LLM根据设计的提示生成增强后的数据集;3) 使用原始数据集和增强后的数据集训练多标签分类模型;4) 评估不同数据增强策略对分类性能的影响。

关键创新:关键创新在于探索了多种基于LLM提示的数据增强策略,并针对生态文本多标签分类任务进行了优化。该研究不仅验证了LLM在数据增强方面的有效性,还深入分析了不同提示策略对模型性能的影响,为实际应用提供了指导。

关键设计:论文中关键的设计包括:1) 针对多标签分类任务设计的LLM提示,例如“复述原始文本并明确指示相关类别”;2) 评估指标的选择,使用了适用于多标签分类的指标,如精确率、召回率和F1值;3) 对比了不同数据增强策略的效果,并分析了其优缺点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有基于LLM提示的数据增强策略均能提升生态文本多标签分类性能。其中,通过复述原始文本并明确指示相关类别的提示策略效果最佳,在大多数情况下优于基线模型。这验证了LLM在数据增强方面的有效性,并为实际应用提供了有价值的参考。

🎯 应用场景

该研究成果可应用于环境监测、舆情分析、可持续发展评估等领域。通过自动检测社交媒体和新闻报道中提及的绿色实践,可以帮助政府、企业和研究机构了解环保行动的普及程度,评估政策效果,并制定更有效的环保策略。此外,该方法还可推广到其他领域的文本分类任务中。

📄 摘要(原文)

Large language models (LLMs) play a crucial role in natural language processing (NLP) tasks, improving the understanding, generation, and manipulation of human language across domains such as translating, summarizing, and classifying text. Previous studies have demonstrated that instruction-based LLMs can be effectively utilized for data augmentation to generate diverse and realistic text samples. This study applied prompt-based data augmentation to detect mentions of green practices in Russian social media. Detecting green practices in social media aids in understanding their prevalence and helps formulate recommendations for scaling eco-friendly actions to mitigate environmental issues. We evaluated several prompts for augmenting texts in a multi-label classification task, either by rewriting existing datasets using LLMs, generating new data, or combining both approaches. Our results revealed that all strategies improved classification performance compared to the models fine-tuned only on the original dataset, outperforming baselines in most cases. The best results were obtained with the prompt that paraphrased the original text while clearly indicating the relevant categories.