Reducing and Exploiting Data Augmentation Noise through Meta Reweighting Contrastive Learning for Text Classification

📄 arXiv: 2409.17474v1 📥 PDF

作者: Guanyi Mou, Yichuan Li, Kyumin Lee

分类: cs.CL, cs.LG

发布日期: 2024-09-26

备注: IEEE BigData 2021

期刊: IEEE BigData 2021

DOI: 10.1109/BigData52589.2021.9671510


💡 一句话要点

提出基于元重加权对比学习的文本分类方法,降低并利用数据增强噪声。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本分类 数据增强 元学习 对比学习 噪声抑制 重加权 GLUE基准

📋 核心要点

  1. 数据增强引入噪声,降低了增强数据的质量,影响了文本分类模型的性能。
  2. 利用元学习和对比学习,对增强样本进行重加权,并优化其特征表示,从而降低噪声影响。
  3. 在GLUE基准数据集上,Text-CNN和RoBERTa-base编码器分别平均提升1.6%和1.4%,最高提升4.3%和4.4%。

📝 摘要(中文)

数据增强在解决数据饥渴问题和提高模型泛化能力方面显示出有效性。然而,增强数据的质量可能参差不齐,尤其是与原始数据相比。为了提升深度学习模型在文本分类任务中处理增强样本的性能,我们提出了一个新颖的框架,该框架利用元学习和对比学习技术,基于增强样本的质量对其进行重加权并优化其特征表示。作为框架的一部分,我们提出了新颖的权重依赖的入队和出队算法,以有效地利用增强样本的权重/质量信息。实验表明,我们的框架可以合理地与现有的深度学习模型(例如,RoBERTa-base和Text-CNN)和增强技术(例如,Wordnet和Easydata)配合使用,以完成特定的监督学习任务。实验结果表明,在七个GLUE基准数据集上,与最佳基线相比,我们的框架在Text-CNN编码器上平均提高了1.6%,最高提高了4.3%,在RoBERTa-base编码器上平均提高了1.4%,最高提高了4.4%。我们对框架设计进行了深入分析,揭示了网络组件的重要贡献。我们的代码已公开提供,以提高可重复性。

🔬 方法详解

问题定义:论文旨在解决数据增强在文本分类任务中引入噪声,导致模型性能下降的问题。现有方法无法有效区分和利用不同质量的增强数据,导致模型训练不稳定,泛化能力受限。

核心思路:论文的核心思路是利用元学习来学习增强样本的权重,并结合对比学习来优化特征表示。通过元学习,模型可以根据增强样本的质量动态调整其权重,从而降低噪声的影响。对比学习则用于拉近高质量增强样本与其原始样本的距离,提高特征表示的鲁棒性。

技术框架:整体框架包含三个主要模块:数据增强模块、元重加权模块和对比学习模块。首先,数据增强模块生成增强样本。然后,元重加权模块利用元学习算法,根据增强样本的质量为其分配权重。最后,对比学习模块利用加权后的增强样本和原始样本进行对比学习,优化特征表示。此外,论文还提出了权重依赖的入队和出队算法,用于更有效地利用增强样本的权重信息。

关键创新:论文的关键创新在于将元学习和对比学习相结合,用于解决数据增强带来的噪声问题。传统的对比学习方法通常平等对待所有增强样本,忽略了它们质量的差异。而论文提出的方法可以根据增强样本的质量动态调整其权重,从而更有效地利用增强数据。此外,权重依赖的入队和出队算法也是一个重要的创新点,它可以更好地利用增强样本的权重信息。

关键设计:元学习模块使用一个小的验证集来学习增强样本的权重。损失函数包括对比损失和元学习损失。对比损失用于拉近高质量增强样本与其原始样本的距离,元学习损失用于优化元学习器的参数,使其能够更准确地预测增强样本的权重。权重依赖的入队和出队算法根据增强样本的权重来决定其在内存队列中的优先级,权重高的样本更容易被选择用于对比学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在七个GLUE基准数据集上,与最佳基线相比,在Text-CNN编码器上平均提高了1.6%,最高提高了4.3%,在RoBERTa-base编码器上平均提高了1.4%,最高提高了4.4%。这些结果表明,该框架可以有效地降低数据增强带来的噪声,并提高文本分类模型的性能。

🎯 应用场景

该研究成果可应用于各种文本分类任务,例如情感分析、主题分类、垃圾邮件检测等。通过降低数据增强带来的噪声,可以提高模型的准确性和鲁棒性。该方法还可推广到其他自然语言处理任务,例如机器翻译、文本摘要等,具有广泛的应用前景。

📄 摘要(原文)

Data augmentation has shown its effectiveness in resolving the data-hungry problem and improving model's generalization ability. However, the quality of augmented data can be varied, especially compared with the raw/original data. To boost deep learning models' performance given augmented data/samples in text classification tasks, we propose a novel framework, which leverages both meta learning and contrastive learning techniques as parts of our design for reweighting the augmented samples and refining their feature representations based on their quality. As part of the framework, we propose novel weight-dependent enqueue and dequeue algorithms to utilize augmented samples' weight/quality information effectively. Through experiments, we show that our framework can reasonably cooperate with existing deep learning models (e.g., RoBERTa-base and Text-CNN) and augmentation techniques (e.g., Wordnet and Easydata) for specific supervised learning tasks. Experiment results show that our framework achieves an average of 1.6%, up to 4.3% absolute improvement on Text-CNN encoders and an average of 1.4%, up to 4.4% absolute improvement on RoBERTa-base encoders on seven GLUE benchmark datasets compared with the best baseline. We present an indepth analysis of our framework design, revealing the non-trivial contributions of our network components. Our code is publicly available for better reproducibility.