Backtranslation and paraphrasing in the LLM era? Comparing data augmentation methods for emotion classification

📄 arXiv: 2507.14590v1 📥 PDF

作者: Łukasz Radliński, Mateusz Guściora, Jan Kocoń

分类: cs.CL, cs.AI

发布日期: 2025-07-19

备注: International Conference on Computational Science 2025

期刊: Computational Science - ICCS 2025, Lecture Notes in Computer Science, vol. 14730, Springer, 2025, pp. 3-17

DOI: 10.1007/978-3-031-97626-1_1


💡 一句话要点

对比数据增强方法:LLM时代的情感分类回译与释义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感分类 数据增强 大型语言模型 回译 释义

📋 核心要点

  1. 领域数据稀缺和类别不平衡是情感分类等NLP任务的常见挑战,限制了模型性能。
  2. 论文探索利用大型语言模型(LLM)进行数据增强,对比回译、释义和生成方法。
  3. 实验表明,回译和释义等传统方法在LLM加持下,可媲美甚至超越纯生成方法。

📝 摘要(中文)

许多特定领域的机器学习任务面临数据稀缺和类别不平衡的问题。本文系统地探讨了自然语言处理中的数据增强方法,特别是通过像GPT这样的大型语言模型。本文旨在检验和评估诸如释义和回译等传统方法是否能够利用新一代模型,以实现与纯生成方法相媲美的性能。选择了旨在解决数据稀缺问题和利用ChatGPT的方法,以及一个示例数据集。我们进行了一系列实验,比较了多种实验设置中四种不同的数据增强方法。然后,我们从生成数据的质量及其对分类性能的影响两方面评估了结果。关键发现表明,回译和释义可以产生与零样本和少样本生成示例相当甚至更好的结果。

🔬 方法详解

问题定义:情感分类任务中,特定领域的数据集往往规模较小,且各类情感的样本数量可能不均衡,导致模型训练不足,泛化能力差。现有方法如人工标注成本高昂,而简单的复制或随机增强效果有限。

核心思路:利用大型语言模型(LLM)强大的文本生成和理解能力,对原始数据进行增强。核心在于探索传统数据增强方法(回译和释义)在LLM时代的潜力,并与直接使用LLM生成数据的方法进行对比,寻找更有效的数据增强策略。

技术框架:整体流程包括:1) 选择情感分类数据集;2) 应用四种数据增强方法(回译、释义、零样本生成、少样本生成);3) 使用增强后的数据集训练情感分类模型;4) 评估模型在测试集上的性能,并分析生成数据的质量。

关键创新:论文的关键创新在于对比了传统数据增强方法(回译和释义)与基于LLM的生成方法在情感分类任务中的效果。以往研究可能更侧重于直接使用LLM生成数据,而本文则重新审视了传统方法在LLM辅助下的价值。

关键设计:论文使用了ChatGPT作为LLM,并针对不同的数据增强方法设计了不同的prompt。例如,对于回译,使用ChatGPT将原始文本翻译成另一种语言,然后再翻译回原始语言。对于释义,使用ChatGPT生成与原始文本意思相近但表达不同的文本。对于零样本和少样本生成,则直接指示ChatGPT生成特定情感的文本。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在情感分类任务中,经过LLM加持的回译和释义方法能够达到与零样本和少样本生成方法相当甚至更好的性能。这表明,在数据增强方面,传统方法在LLM时代仍然具有重要价值,并且可能比直接生成数据更有效。

🎯 应用场景

该研究成果可应用于各种情感分析场景,例如社交媒体舆情监控、客户服务文本分析、产品评论情感挖掘等。通过有效的数据增强,可以提升情感分类模型的准确性和鲁棒性,尤其是在数据资源有限的情况下。未来的研究可以探索更复杂的数据增强策略,例如结合多种方法或利用领域知识进行指导。

📄 摘要(原文)

Numerous domain-specific machine learning tasks struggle with data scarcity and class imbalance. This paper systematically explores data augmentation methods for NLP, particularly through large language models like GPT. The purpose of this paper is to examine and evaluate whether traditional methods such as paraphrasing and backtranslation can leverage a new generation of models to achieve comparable performance to purely generative methods. Methods aimed at solving the problem of data scarcity and utilizing ChatGPT were chosen, as well as an exemplary dataset. We conducted a series of experiments comparing four different approaches to data augmentation in multiple experimental setups. We then evaluated the results both in terms of the quality of generated data and its impact on classification performance. The key findings indicate that backtranslation and paraphrasing can yield comparable or even better results than zero and a few-shot generation of examples.