Explicit and Implicit Data Augmentation for Social Event Detection

📄 arXiv: 2509.04202v1 📥 PDF

作者: Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov

分类: cs.CL, cs.SI

发布日期: 2025-09-04

🔗 代码/项目: GITHUB


💡 一句话要点

提出SED-Aug框架,结合显式文本增强和隐式特征增强,提升社交事件检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交事件检测 数据增强 大型语言模型 特征空间扰动 文本增强

📋 核心要点

  1. 社交事件检测依赖大量标注数据,而数据标注成本高、耗时费力,限制了模型性能。
  2. SED-Aug框架结合显式文本增强(基于LLM)和隐式特征空间增强,增加数据多样性,提升模型鲁棒性。
  3. 实验表明,SED-Aug在Twitter2012和Twitter2018数据集上,F1得分分别提升约17.67%和15.57%。

📝 摘要(中文)

社交事件检测旨在从社交媒体中识别和分类重要事件,这依赖于标注数据,但标注成本高昂且耗费人力。为了解决这个问题,我们提出了社交事件检测增强框架(SED-Aug),这是一个即插即用的双重增强框架,它结合了显式文本增强和隐式特征空间增强,以增强数据的多样性和模型的鲁棒性。显式增强利用大型语言模型,通过五种不同的生成策略来增强文本信息。对于隐式增强,我们设计了五种新颖的扰动技术,这些技术在结构融合嵌入的特征空间中运行。这些扰动旨在保持嵌入的语义和关系属性,并使它们更加多样化。具体来说,SED-Aug在Twitter2012数据集上,平均F1得分比最佳基线模型高出约17.67%,在Twitter2018数据集上高出约15.57%。代码已在GitHub上发布。

🔬 方法详解

问题定义:社交事件检测旨在从海量社交媒体数据中自动识别和分类重要事件。现有方法通常依赖于有限的标注数据,导致模型泛化能力不足。数据标注成本高昂,难以获取大规模高质量的标注数据,成为制约社交事件检测发展的瓶颈。

核心思路:论文的核心思路是通过数据增强来扩充训练数据集,从而提高模型的泛化能力和鲁棒性。SED-Aug框架采用双重增强策略,同时在文本层面和特征层面进行数据增强,以更全面地提升模型性能。通过显式文本增强,引入更多样化的文本信息;通过隐式特征增强,提升模型对特征扰动的鲁棒性。

技术框架:SED-Aug框架包含两个主要模块:显式文本增强模块和隐式特征空间增强模块。显式文本增强模块利用大型语言模型生成多样化的文本数据,包括释义、回译、随机插入、随机删除和同义词替换等策略。隐式特征空间增强模块则在结构融合嵌入的特征空间中引入扰动,包括高斯噪声、对抗扰动、dropout、特征交换和特征混合等技术。这两个模块可以独立使用,也可以结合使用,以达到最佳的增强效果。

关键创新:SED-Aug的关键创新在于其双重增强策略,同时考虑了文本层面和特征层面的数据增强。显式文本增强利用了大型语言模型的强大生成能力,能够生成高质量的增强文本。隐式特征空间增强则直接在特征空间中引入扰动,能够有效地提升模型对特征变化的鲁棒性。此外,SED-Aug框架是一个即插即用的模块,可以方便地集成到现有的社交事件检测模型中。

关键设计:在显式文本增强模块中,论文采用了五种不同的生成策略,并对每种策略的生成数量进行了调整,以平衡增强数据的多样性和质量。在隐式特征空间增强模块中,论文设计了五种新颖的扰动技术,并对每种技术的扰动强度进行了控制,以避免引入过多的噪声。此外,论文还采用了结构融合嵌入,将文本信息和结构信息融合在一起,从而更好地表示社交事件。

📊 实验亮点

实验结果表明,SED-Aug框架在Twitter2012和Twitter2018数据集上均取得了显著的性能提升。在Twitter2012数据集上,SED-Aug的平均F1得分比最佳基线模型高出约17.67%;在Twitter2018数据集上,SED-Aug的平均F1得分比最佳基线模型高出约15.57%。这些结果表明,SED-Aug框架能够有效地提升社交事件检测的性能。

🎯 应用场景

该研究成果可应用于舆情监控、危机事件预警、公共安全管理等领域。通过自动识别和分类社交媒体上的重要事件,可以帮助政府、企业和个人及时了解社会动态,做出明智决策。未来,该技术可进一步扩展到其他自然语言处理任务,如情感分析、文本摘要等。

📄 摘要(原文)

Social event detection involves identifying and categorizing important events from social media, which relies on labeled data, but annotation is costly and labor-intensive. To address this problem, we propose Augmentation framework for Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework, which combines explicit text-based and implicit feature-space augmentation to enhance data diversity and model robustness. The explicit augmentation utilizes large language models to enhance textual information through five diverse generation strategies. For implicit augmentation, we design five novel perturbation techniques that operate in the feature space on structural fused embeddings. These perturbations are crafted to keep the semantic and relational properties of the embeddings and make them more diverse. Specifically, SED-Aug outperforms the best baseline model by approximately 17.67% on the Twitter2012 dataset and by about 15.57% on the Twitter2018 dataset in terms of the average F1 score. The code is available at GitHub: https://github.com/congboma/SED-Aug.