Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis
作者: Kunrong Li, Xinyu Liu, Zhen Chen
分类: cs.CL, cs.LG
发布日期: 2025-01-29
备注: ICONIP 2024
💡 一句话要点
提出基于大语言模型语义一致性正则化的半监督情感分析方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 半监督学习 情感分析 大语言模型 语义一致性 数据增强
📋 核心要点
- 现有半监督文本分类方法依赖未标注数据的内在信息和模型学习能力,在情感分析场景下泛化性不足,容易过拟合。
- 利用预训练大语言模型在指令跟随和生成连贯文本方面的能力,通过语义一致性正则化框架来提升半监督情感分析性能。
- 通过实体和概念两种prompt策略增强未标注数据,并结合一致性损失和类重组策略,实验结果表明该方法优于现有半监督方法。
📝 摘要(中文)
本文提出了一种基于大语言模型(LLMs)的语义一致性正则化(SCR)框架,用于半监督情感分析。针对有监督情感分析标注数据耗时耗力的问题,以及现有半监督文本分类方法泛化能力弱、易过拟合的缺点,本文利用LLMs在指令跟随和文本生成方面的能力,设计了两种prompt策略来增强未标注文本的语义信息。一是基于实体的增强(SCR-EE),提取实体和数值信息,并查询LLM以重建文本信息。二是基于概念的增强(SCR-CE),直接使用原始句子查询LLM进行语义重建。然后,将LLM增强的数据用于一致性损失,并使用置信度阈值来保留高质量的一致性样本,从而在训练期间提供额外的监督信号。此外,为了充分利用不确定的未标注数据样本,本文提出了一种受类空间收缩定理启发的类重组策略。实验结果表明,该方法优于现有的半监督方法。
🔬 方法详解
问题定义:本文旨在解决半监督情感分析问题,即在少量标注数据和大量未标注数据的情况下,如何有效地进行情感分类。现有半监督文本分类方法通常依赖于未标注数据的内在信息和模型的学习能力,这使得它们在情感分析场景中泛化能力较弱,并且容易过拟合,难以充分利用未标注数据的信息。
核心思路:本文的核心思路是利用预训练大语言模型(LLMs)强大的语义理解和生成能力,通过prompting策略增强未标注数据的语义信息,并利用增强后的数据进行一致性正则化,从而提高半监督情感分析的性能。通过LLM生成更多样化和信息丰富的文本,为模型提供更强的监督信号。
技术框架:该方法主要包含以下几个阶段:1) 使用两种prompt策略(SCR-EE和SCR-CE)利用LLM增强未标注数据。SCR-EE提取实体和数值信息,并查询LLM重建文本;SCR-CE直接使用原始句子查询LLM进行语义重建。2) 使用LLM增强的数据计算一致性损失,并使用置信度阈值过滤低质量样本。3) 提出类重组策略,充分利用不确定的未标注数据样本。4) 将一致性损失和分类损失结合起来,训练情感分析模型。
关键创新:本文的关键创新在于利用LLM进行语义增强,并将其应用于半监督情感分析。与传统的半监督方法不同,本文不依赖于未标注数据的内在信息,而是利用LLM生成更丰富、更具信息量的文本,从而为模型提供更强的监督信号。此外,类重组策略也进一步提升了未标注数据的利用率。
关键设计:1) 两种prompt策略:SCR-EE和SCR-CE,用于从不同角度利用LLM增强数据。2) 一致性损失函数:用于约束原始文本和LLM增强文本的情感预测一致性。3) 置信度阈值:用于过滤低质量的LLM生成样本,避免引入噪声。4) 类重组策略:受类空间收缩定理启发,用于更有效地利用不确定的未标注数据样本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在半监督情感分析任务上取得了显著的性能提升,优于现有的半监督方法。具体的性能数据未知,但摘要中明确指出“achieves remarkable performance over prior semi-supervised methods”,表明该方法具有较强的竞争力。
🎯 应用场景
该研究成果可广泛应用于舆情监控、客户反馈分析、市场趋势预测等领域。通过利用少量标注数据和大量未标注数据,可以降低情感分析模型的训练成本,提高模型的泛化能力和准确性。该方法还可以扩展到其他文本分类任务中,具有重要的实际应用价值和潜在的商业价值。
📄 摘要(原文)
Accurate sentiment analysis of texts is crucial for a variety of applications, such as understanding customer feedback, monitoring market trends, and detecting public sentiment. However, manually annotating large sentiment corpora for supervised learning is labor-intensive and time-consuming. Therefore, it is essential and effective to develop a semi-supervised method for the sentiment analysis task. Although some methods have been proposed for semi-supervised text classification, they rely on the intrinsic information within the unlabeled data and the learning capability of the NLP model, which lack generalization ability to the sentiment analysis scenario and may prone to overfit. Inspired by the ability of pretrained Large Language Models (LLMs) in following instructions and generating coherent text, we propose a Semantic Consistency Regularization with Large Language Models (SCR) framework for semi-supervised sentiment analysis. We introduce two prompting strategies to semantically enhance unlabeled text using LLMs. The first is Entity-based Enhancement (SCR-EE), which involves extracting entities and numerical information, and querying the LLM to reconstruct the textual information. The second is Concept-based Enhancement (SCR-CE), which directly queries the LLM with the original sentence for semantic reconstruction. Subsequently, the LLM-augmented data is utilized for a consistency loss with confidence thresholding, which preserves high-quality agreement samples to provide additional supervision signals during training. Furthermore, to fully utilize the uncertain unlabeled data samples, we propose a class re-assembling strategy inspired by the class space shrinking theorem. Experiments show our method achieves remarkable performance over prior semi-supervised methods.