Unsupervised Social Event Detection via Hybrid Graph Contrastive Learning and Reinforced Incremental Clustering

📄 arXiv: 2312.08374v2 📥 PDF

作者: Yuanyuan Guo, Zehua Zang, Hang Gao, Xiao Xu, Rui Wang, Lixiang Liu, Jiangmeng Li

分类: cs.SI, cs.AI

发布日期: 2023-12-08 (更新: 2023-12-15)

备注: Accepted by Knowledge-Based Systems

DOI: 10.1016/j.knosys.2023.111225


💡 一句话要点

提出HCRC模型,通过混合图对比学习和强化增量聚类实现无监督社交事件检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 社交事件检测 无监督学习 图对比学习 增量聚类 强化学习 社交媒体 事件抽取

📋 核心要点

  1. 现有方法在社交事件检测中,图对比学习仅粗略探索部分属性,无法充分学习社交消息的判别信息。
  2. HCRC模型利用混合图对比学习,综合学习社交消息的语义和结构信息,并使用强化增量聚类实现无监督聚类。
  3. 在Twitter和Maven数据集上的实验表明,HCRC在不同设置下均显著优于现有方法,最高提升达53%。

📝 摘要(中文)

本文提出了一种新颖的无监督社交媒体事件检测方法,称为混合图对比学习和强化增量聚类(HCRC)。该方法利用混合图对比学习,全面学习社交消息的语义和结构判别信息;并采用强化增量聚类,以完全无监督的方式执行高效聚类。 针对社交数据过度多样性和高更新频率的挑战,传统方法难以有效提取判别信息。实验结果表明,在Twitter和Maven数据集上,HCRC方法取得了持续显著的性能提升,在传统增量、半监督增量和完全无监督设置下,模型性能分别实现了最高53%、45%和37%的改进。

🔬 方法详解

问题定义:社交媒体事件检测旨在从海量社交数据流中自动识别和提取不同的事件。现有的无监督方法依赖图对比学习和嵌入聚类,但存在两个主要痛点:一是图对比学习无法充分挖掘社交消息的判别信息;二是聚类过程依赖先验知识,与无监督学习的原则相悖。

核心思路:本文的核心思路是通过混合图对比学习更全面地提取社交消息的语义和结构信息,并使用强化增量聚类在完全无监督的环境下进行高效聚类。 这种设计旨在克服现有方法在信息提取和聚类过程中存在的局限性,从而提高事件检测的准确性和鲁棒性。

技术框架:HCRC模型主要包含两个阶段:混合图对比学习和强化增量聚类。首先,混合图对比学习模块构建社交消息的混合图,并利用对比学习方法学习节点的嵌入表示,从而捕获语义和结构信息。然后,强化增量聚类模块利用强化学习策略,逐步将新的社交消息分配到已有的簇中,或者创建新的簇,从而实现事件检测。

关键创新:HCRC的关键创新在于混合图对比学习和强化增量聚类的结合。混合图对比学习能够更全面地提取社交消息的判别信息,而强化增量聚类则能够在完全无监督的环境下进行高效聚类。与现有方法相比,HCRC不需要任何先验知识,并且能够更好地适应社交数据流的动态变化。

关键设计:在混合图对比学习中,使用了多种图结构(例如,基于语义相似度的图和基于用户关系的图)来捕获不同的信息。对比学习的目标是最大化同一消息的不同视图之间的一致性,同时最小化不同消息之间的一致性。在强化增量聚类中,使用了一个强化学习代理来决定如何将新的消息分配到簇中。奖励函数的设计旨在鼓励代理创建紧凑且分离良好的簇。

📊 实验亮点

实验结果表明,HCRC在Twitter和Maven数据集上均取得了显著的性能提升。在传统增量设置下,HCRC的性能提升高达53%;在半监督增量设置下,性能提升高达45%;在完全无监督设置下,性能提升高达37%。这些结果表明,HCRC能够有效地学习社交消息的判别信息,并在完全无监督的环境下进行高效聚类。

🎯 应用场景

该研究成果可应用于舆情监控、突发事件预警、社交媒体内容推荐等领域。通过自动检测社交媒体上的事件,可以帮助政府、企业和个人及时了解社会动态,做出快速响应。此外,该技术还可以用于个性化推荐,根据用户的兴趣和关注点,推荐相关的事件信息。

📄 摘要(原文)

Detecting events from social media data streams is gradually attracting researchers. The innate challenge for detecting events is to extract discriminative information from social media data thereby assigning the data into different events. Due to the excessive diversity and high updating frequency of social data, using supervised approaches to detect events from social messages is hardly achieved. To this end, recent works explore learning discriminative information from social messages by leveraging graph contrastive learning (GCL) and embedding clustering in an unsupervised manner. However, two intrinsic issues exist in benchmark methods: conventional GCL can only roughly explore partial attributes, thereby insufficiently learning the discriminative information of social messages; for benchmark methods, the learned embeddings are clustered in the latent space by taking advantage of certain specific prior knowledge, which conflicts with the principle of unsupervised learning paradigm. In this paper, we propose a novel unsupervised social media event detection method via hybrid graph contrastive learning and reinforced incremental clustering (HCRC), which uses hybrid graph contrastive learning to comprehensively learn semantic and structural discriminative information from social messages and reinforced incremental clustering to perform efficient clustering in a solidly unsupervised manner. We conduct comprehensive experiments to evaluate HCRC on the Twitter and Maven datasets. The experimental results demonstrate that our approach yields consistent significant performance boosts. In traditional incremental setting, semi-supervised incremental setting and solidly unsupervised setting, the model performance has achieved maximum improvements of 53%, 45%, and 37%, respectively.