Label-template based Few-Shot Text Classification with Contrastive Learning

📄 arXiv: 2412.10110v1 📥 PDF

作者: Guanghua Hou, Shuhui Cao, Deqiang Ouyang, Ning Wang

分类: cs.CL, cs.AI

发布日期: 2024-12-13


💡 一句话要点

提出基于标签模板和对比学习的小样本文本分类框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 小样本学习 文本分类 标签模板 对比学习 预训练模型 元学习

📋 核心要点

  1. 现有小样本文本分类方法对类别标签的利用不足,限制了模型性能。
  2. 本文提出将标签模板嵌入输入,利用标签语义引导预训练模型生成更具区分性的文本表示。
  3. 实验结果表明,该方法在多个数据集上显著优于现有最佳模型,性能得到大幅提升。

📝 摘要(中文)

本文提出了一种简单有效的小样本文本分类框架,旨在解决现有方法对类别标签利用不足的问题。现有方法通常基于原型网络构建元学习器,严重依赖类间方差,容易受到噪声影响。本文通过将相应的标签模板嵌入到输入句子中,充分利用类别标签的潜在价值,引导预训练模型通过标签传达的语义信息生成更具区分性的文本表示。借助标签语义的持续影响,利用监督对比学习来建模支持样本和查询样本之间的交互信息。此外,用注意力机制代替平均机制,以突出重要的语义信息。在四个典型数据集上的实验结果表明,该方法取得了显著的性能提升,优于现有的小样本文本分类模型。

🔬 方法详解

问题定义:小样本文本分类任务旨在仅有少量标注样本的情况下,对文本进行准确分类。现有方法,特别是基于原型网络的元学习方法,严重依赖类间方差,容易受到噪声的影响,并且未能充分利用类别标签所蕴含的语义信息。

核心思路:本文的核心思路是通过显式地将类别标签信息融入到输入文本中,从而引导模型学习到更具区分性的文本表示。具体而言,通过构建标签模板,将标签的语义信息以文本的形式嵌入到输入句子中,从而让预训练模型能够更好地理解和利用标签信息。

技术框架:该框架主要包含以下几个模块:1) 标签模板构建:为每个类别构建相应的标签模板,例如“This is a [类别] text.”。2) 文本嵌入:将包含标签模板的输入句子输入到预训练模型(如BERT)中,得到文本的嵌入表示。3) 对比学习:利用监督对比学习,鼓励同一类别的样本在嵌入空间中更加接近,不同类别的样本更加远离。4) 注意力机制:使用注意力机制来加权不同样本的重要性,从而更好地利用支持集样本的信息。

关键创新:该方法最重要的创新点在于显式地将类别标签信息融入到输入文本中,从而让模型能够更好地利用标签的语义信息。与传统的基于原型网络的方法相比,该方法不再仅仅依赖于类间方差,而是通过标签语义的引导,学习到更鲁棒和更具区分性的文本表示。

关键设计:在标签模板构建方面,需要仔细设计模板的格式,以确保模板能够有效地表达类别的语义信息。在对比学习方面,使用了监督对比损失,该损失函数能够同时考虑正样本和负样本的信息,从而更好地学习到具有区分性的嵌入表示。注意力机制的选择也很重要,需要选择合适的注意力机制来加权不同样本的重要性。具体的超参数设置(如学习率、batch size等)需要根据具体的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在四个典型数据集上均取得了显著的性能提升,例如在FewRel数据集上,5-way 1-shot和5-way 5-shot的准确率分别提升了超过3个百分点和2个百分点,超越了现有的最佳模型。这表明该方法能够有效地利用标签信息,提高小样本文本分类的性能。

🎯 应用场景

该研究成果可应用于各种小样本文本分类场景,例如:新领域文本分类、低资源语言文本分类、用户意图识别、情感分析等。通过少量标注数据即可快速构建有效的分类模型,降低了标注成本,具有重要的实际应用价值。未来可进一步探索更有效的标签模板构建方法和对比学习策略,提升模型性能。

📄 摘要(原文)

As an algorithmic framework for learning to learn, meta-learning provides a promising solution for few-shot text classification. However, most existing research fail to give enough attention to class labels. Traditional basic framework building meta-learner based on prototype networks heavily relies on inter-class variance, and it is easily influenced by noise. To address these limitations, we proposes a simple and effective few-shot text classification framework. In particular, the corresponding label templates are embed into input sentences to fully utilize the potential value of class labels, guiding the pre-trained model to generate more discriminative text representations through the semantic information conveyed by labels. With the continuous influence of label semantics, supervised contrastive learning is utilized to model the interaction information between support samples and query samples. Furthermore, the averaging mechanism is replaced with an attention mechanism to highlight vital semantic information. To verify the proposed scheme, four typical datasets are employed to assess the performance of different methods. Experimental results demonstrate that our method achieves substantial performance enhancements and outperforms existing state-of-the-art models on few-shot text classification tasks.