Contrastive Multi-graph Learning with Neighbor Hierarchical Sifting for Semi-supervised Text Classification
作者: Wei Ai, Jianbin Li, Ze Wang, Yingying Wei, Tao Meng, Yuntao Shou, Keqin Lib
分类: cs.CL, cs.IR
发布日期: 2024-11-25
备注: 16 pages, 6 figures
💡 一句话要点
提出ConNHS,通过对比多图学习和邻域分层筛选改进半监督文本分类
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图对比学习 多图学习 半监督文本分类 邻域分层筛选 文本表示学习
📋 核心要点
- 现有图对比学习方法在文本分类中存在语义信息丢失、忽略边特征和节点重要性差异以及假阴性样本问题。
- ConNHS通过构建多关系文本图、关系感知传播和跨图注意力传播以及邻域分层筛选损失来解决上述问题。
- 实验结果表明,ConNHS在多个数据集上取得了优异的半监督文本分类性能,验证了其有效性。
📝 摘要(中文)
本文提出了一种用于半监督文本分类的对比多图学习方法,名为ConNHS,该方法结合了邻域分层筛选。现有图对比学习方法在文本分类中表现出色,但显式图增强可能导致语义信息丢失,且忽略了边特征和节点特征的重要性差异,同时对比损失易受假阴性样本的影响。ConNHS利用核心特征构建多关系文本图,增强文本间的语义连接,并通过分离文本图为对比学习提供多样视图,从而最大限度地保留图信息。该方法分别执行关系感知传播和跨图注意力传播,有效利用节点和边特征之间的相关性,并协调跨图信息融合。此外,提出了邻域分层筛选损失(NHS)来优化负样本选择,通过同质性假设屏蔽一阶邻居,并排除与锚点相似的高阶邻居,从而减少假阴性样本,防止相似样本在嵌入空间中距离扩大。在ThuCNews、SogouNews、20 Newsgroups和Ohsumed数据集上的实验结果分别达到95.86%、97.52%、87.43%和70.65%,证明了其在半监督文本分类中的竞争力。
🔬 方法详解
问题定义:现有基于图对比学习的文本分类方法存在以下痛点:一是显式的图增强操作可能导致语义信息的损失;二是忽略了边特征以及不同节点特征的重要性差异;三是对比学习损失函数容易受到假阴性样本的影响,导致模型性能下降。
核心思路:ConNHS的核心思路是构建一个能够更好保留语义信息的多关系文本图,并设计一种能够有效减少假阴性样本的对比学习损失函数。通过多关系图来提供更丰富的对比视图,并通过邻域分层筛选来优化负样本的选择,从而提升模型的表示学习能力和分类性能。
技术框架:ConNHS的整体框架主要包含以下几个模块: 1. 多关系文本图构建:利用核心特征构建多关系文本图,增强文本之间的语义连接,并为对比学习提供多样化的视图。 2. 关系感知传播:在每个关系图上进行关系感知的消息传播,利用节点和边特征之间的相关性。 3. 跨图注意力传播:通过跨图注意力机制,融合不同关系图的信息。 4. 邻域分层筛选损失(NHS):设计NHS损失函数,优化负样本的选择,减少假阴性样本的影响。 5. 分类器:使用学习到的节点表示进行文本分类。
关键创新:ConNHS的关键创新在于以下几点: 1. 多关系文本图:不同于以往的单一图结构,ConNHS构建了多关系文本图,能够更全面地捕捉文本之间的语义关系。 2. 邻域分层筛选损失(NHS):NHS损失函数能够有效减少假阴性样本,从而提升对比学习的效果。
关键设计: 1. 多关系图构建:具体如何选择和提取核心特征来构建多关系图,例如使用TF-IDF值高的词语作为核心特征。 2. 关系感知传播:如何设计关系感知的消息传播机制,例如使用不同的权重来区分不同关系的边。 3. 跨图注意力传播:如何设计跨图注意力机制,例如使用Transformer结构来学习不同图之间的注意力权重。 4. NHS损失函数:如何定义邻域相似度,以及如何根据相似度来筛选负样本。
🖼️ 关键图片
📊 实验亮点
ConNHS在四个数据集上进行了实验,结果显示,在ThuCNews、SogouNews、20 Newsgroups和Ohsumed数据集上分别取得了95.86%、97.52%、87.43%和70.65%的分类准确率。这些结果表明,ConNHS在半监督文本分类任务中具有很强的竞争力,相较于现有方法有显著提升。
🎯 应用场景
ConNHS可应用于各种文本分类任务,例如新闻分类、情感分析、主题分类等。该方法通过提升文本表示学习能力,可以提高分类精度,尤其是在半监督学习场景下,能够有效利用少量标注数据和大量未标注数据,降低标注成本。未来可扩展到其他图结构数据分析任务,例如社交网络分析、知识图谱推理等。
📄 摘要(原文)
Graph contrastive learning has been successfully applied in text classification due to its remarkable ability for self-supervised node representation learning. However, explicit graph augmentations may lead to a loss of semantics in the contrastive views. Secondly, existing methods tend to overlook edge features and the varying significance of node features during multi-graph learning. Moreover, the contrastive loss suffer from false negatives. To address these limitations, we propose a novel method of contrastive multi-graph learning with neighbor hierarchical sifting for semi-supervised text classification, namely ConNHS. Specifically, we exploit core features to form a multi-relational text graph, enhancing semantic connections among texts. By separating text graphs, we provide diverse views for contrastive learning. Our approach ensures optimal preservation of the graph information, minimizing data loss and distortion. Then, we separately execute relation-aware propagation and cross-graph attention propagation, which effectively leverages the varying correlations between nodes and edge features while harmonising the information fusion across graphs. Subsequently, we present the neighbor hierarchical sifting loss (NHS) to refine the negative selection. For one thing, following the homophily assumption, NHS masks first-order neighbors of the anchor and positives from being negatives. For another, NHS excludes the high-order neighbors analogous to the anchor based on their similarities. Consequently, it effectively reduces the occurrence of false negatives, preventing the expansion of the distance between similar samples in the embedding space. Our experiments on ThuCNews, SogouNews, 20 Newsgroups, and Ohsumed datasets achieved 95.86\%, 97.52\%, 87.43\%, and 70.65\%, which demonstrates competitive results in semi-supervised text classification.