Reliable Pseudo-labeling via Optimal Transport with Attention for Short Text Clustering

作者: Zhihao Yao, Jixuan Yin, Bo Li

分类: cs.LG, stat.CO, stat.ML

发布日期: 2025-01-25 (更新: 2025-02-04)

🔗 代码/项目: GITHUB

💡 一句话要点

提出POTA框架，利用最优传输和注意力机制进行可靠伪标签生成，提升短文本聚类效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 短文本聚类 最优传输 注意力机制 伪标签 对比学习

📋 核心要点

短文本聚类面临信息稀疏和表示区分度低的挑战，现有方法难以有效捕获文本的深层语义。
POTA框架通过实例级注意力机制和最优传输，生成可靠的伪标签，指导对比学习，提升表示学习效果。
实验结果表明，POTA在多个短文本聚类任务上超越了现有最佳方法，展现了其优越性能。

📝 摘要（中文）

短文本聚类在数据挖掘领域备受关注。然而，短文本包含的有效信息有限，导致表示区分度低，增加了聚类难度。本文提出了一种新的短文本聚类框架，称为基于注意力机制的最优传输可靠伪标签方法（POTA），该方法生成可靠的伪标签，以辅助区分性表示学习，从而提升聚类效果。具体而言，POTA首先实现实例级别的注意力机制，以捕获样本之间的语义关系，然后将其作为语义一致性正则化项纳入最优传输问题中。通过解决这个OT问题，我们可以得到可靠的伪标签，同时考虑样本间的语义一致性和样本到聚类的全局结构信息。此外，所提出的OT能够自适应地估计聚类分布，使POTA非常适合处理不同程度的不平衡数据集。然后，我们利用伪标签引导对比学习，以生成区分性表示并实现高效聚类。大量实验表明，POTA优于最先进的方法。

🔬 方法详解

问题定义：短文本聚类任务旨在将语义相似的短文本划分到同一簇中。然而，短文本通常包含的信息量较少，导致文本表示的区分性不足，使得聚类效果不佳。现有的方法往往难以充分利用短文本中的语义信息，或者无法有效地处理类别不平衡问题。

核心思路：POTA的核心思路是利用最优传输（Optimal Transport）来生成可靠的伪标签，并利用这些伪标签来指导对比学习，从而学习到更具区分性的文本表示。通过引入实例级别的注意力机制，POTA能够更好地捕捉样本之间的语义关系，并将其融入到最优传输问题中，从而生成更准确的伪标签。此外，POTA还能够自适应地估计聚类分布，从而更好地处理类别不平衡问题。

技术框架：POTA框架主要包含以下几个阶段：1) 注意力机制: 使用实例级别的注意力机制来计算样本之间的语义相似度。2) 最优传输: 将语义相似度作为正则化项，构建最优传输问题，求解得到伪标签。3) 对比学习: 使用伪标签作为监督信号，进行对比学习，学习文本表示。4) 聚类: 使用学习到的文本表示进行聚类。

关键创新：POTA的关键创新在于：1) 引入了实例级别的注意力机制，更好地捕捉样本之间的语义关系。2) 将注意力机制融入到最优传输问题中，生成更可靠的伪标签。3) 能够自适应地估计聚类分布，更好地处理类别不平衡问题。4) 利用伪标签指导对比学习，学习到更具区分性的文本表示。

关键设计：POTA的关键设计包括：1) 使用Transformer网络提取文本特征。2) 使用余弦相似度计算样本之间的语义相似度。3) 使用Sinkhorn算法求解最优传输问题。4) 使用InfoNCE损失函数进行对比学习。5) 注意力机制的权重参数，最优传输的正则化系数，对比学习的温度系数等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，POTA在多个短文本聚类数据集上取得了显著的性能提升，例如在BBC数据集上，POTA的ACC指标比现有最佳方法提升了超过3%。此外，POTA在类别不平衡的数据集上表现出更强的鲁棒性，证明了其自适应聚类分布估计的有效性。

🎯 应用场景

POTA框架可应用于多种短文本聚类场景，例如新闻主题分类、用户评论分析、社交媒体内容组织等。通过提升短文本聚类的准确性和效率，POTA能够帮助用户更好地理解和利用海量短文本数据，具有重要的实际应用价值和商业前景。

📄 摘要（原文）

Short text clustering has gained significant attention in the data mining community. However, the limited valuable information contained in short texts often leads to low-discriminative representations, increasing the difficulty of clustering. This paper proposes a novel short text clustering framework, called Reliable \textbf{P}seudo-labeling via \textbf{O}ptimal \textbf{T}ransport with \textbf{A}ttention for Short Text Clustering (\textbf{POTA}), that generate reliable pseudo-labels to aid discriminative representation learning for clustering. Specially, \textbf{POTA} first implements an instance-level attention mechanism to capture the semantic relationships among samples, which are then incorporated as a semantic consistency regularization term into an optimal transport problem. By solving this OT problem, we can yield reliable pseudo-labels that simultaneously account for sample-to-sample semantic consistency and sample-to-cluster global structure information. Additionally, the proposed OT can adaptively estimate cluster distributions, making \textbf{POTA} well-suited for varying degrees of imbalanced datasets. Then, we utilize the pseudo-labels to guide contrastive learning to generate discriminative representations and achieve efficient clustering. Extensive experiments demonstrate \textbf{POTA} outperforms state-of-the-art methods. The code is available at: \href{https://github.com/YZH0905/POTA-STC/tree/main}{https://github.com/YZH0905/POTA-STC/tree/main}.

Reliable Pseudo-labeling via Optimal Transport with Attention for Short Text Clustering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理