Explicit and Implicit Data Augmentation for Social Event Detection
作者: Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov
分类: cs.CL, cs.SI
发布日期: 2025-09-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出SED-Aug框架,结合显式文本增强和隐式特征增强,提升社交事件检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社交事件检测 数据增强 大型语言模型 特征扰动 文本增强
📋 核心要点
- 社交事件检测依赖大量标注数据,但标注成本高,效率低,限制了模型性能。
- SED-Aug框架结合显式文本增强(LLM生成)和隐式特征增强(特征扰动),提升数据多样性。
- 实验表明,SED-Aug在Twitter2012和Twitter2018数据集上,F1得分分别提升17.67%和15.57%。
📝 摘要(中文)
社交事件检测旨在从社交媒体中识别和分类重要事件,这依赖于标注数据,但标注成本高昂且耗费人力。为了解决这个问题,我们提出了社交事件检测增强框架(SED-Aug),这是一个即插即用的双重增强框架,它结合了显式文本增强和隐式特征空间增强,以增强数据多样性和模型鲁棒性。显式增强利用大型语言模型,通过五种不同的生成策略来增强文本信息。对于隐式增强,我们设计了五种新颖的扰动技术,这些技术在结构融合嵌入的特征空间中运行。这些扰动旨在保持嵌入的语义和关系属性,并使它们更加多样化。具体来说,SED-Aug在Twitter2012数据集上,平均F1得分比最佳基线模型高出约17.67%,在Twitter2018数据集上高出约15.57%。代码已在GitHub上发布。
🔬 方法详解
问题定义:社交事件检测旨在从社交媒体数据中自动识别和分类真实世界发生的事件。现有方法通常受限于标注数据的稀缺性,导致模型泛化能力不足。数据增强是解决该问题的常用手段,但传统方法往往只关注文本或特征的单一层面,忽略了二者之间的互补性。
核心思路:SED-Aug的核心思路是同时在文本层面和特征层面进行数据增强,从而更全面地提升模型的鲁棒性和泛化能力。通过显式文本增强,引入更多样化的文本表达;通过隐式特征增强,提升模型对特征空间微小变化的适应性。这种双重增强策略旨在弥补单一增强方法的不足。
技术框架:SED-Aug框架包含两个主要模块:显式文本增强模块和隐式特征增强模块。首先,原始文本数据经过显式文本增强模块,利用大型语言模型生成更多样化的文本变体。然后,原始文本和增强后的文本被编码为特征向量,并进行结构融合。接着,这些融合后的特征向量输入到隐式特征增强模块,通过一系列扰动技术生成新的特征向量。最后,原始数据、增强后的文本数据和扰动后的特征数据被用于训练社交事件检测模型。
关键创新:SED-Aug的关键创新在于提出了一个双重增强框架,它同时利用显式文本增强和隐式特征增强。显式文本增强利用大型语言模型生成多样化的文本,而隐式特征增强则通过扰动特征空间来提升模型的鲁棒性。这种双重增强策略能够更全面地提升模型的性能。此外,论文还设计了五种新颖的特征扰动技术,旨在保持嵌入的语义和关系属性。
关键设计:在显式文本增强方面,论文采用了五种不同的生成策略,包括释义、回译、随机插入、随机删除和同义词替换。在隐式特征增强方面,论文设计了五种扰动技术,包括高斯噪声、dropout、对抗扰动、梯度扰动和混合扰动。这些扰动技术作用于结构融合后的嵌入向量。损失函数采用交叉熵损失,优化器采用Adam。具体参数设置(如学习率、dropout率等)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SED-Aug框架在Twitter2012和Twitter2018两个公开数据集上均取得了显著的性能提升。在Twitter2012数据集上,SED-Aug的平均F1得分比最佳基线模型高出约17.67%,在Twitter2018数据集上高出约15.57%。这些结果验证了SED-Aug框架的有效性,证明了双重增强策略能够显著提升社交事件检测的性能。
🎯 应用场景
该研究成果可应用于舆情监控、危机事件预警、个性化新闻推荐等领域。通过提升社交事件检测的准确性和鲁棒性,可以帮助政府、企业和个人更好地理解和应对社会动态,及时发现潜在风险,并提供更精准的信息服务。未来,该方法可以扩展到其他自然语言处理任务,如情感分析、文本分类等。
📄 摘要(原文)
Social event detection involves identifying and categorizing important events from social media, which relies on labeled data, but annotation is costly and labor-intensive. To address this problem, we propose Augmentation framework for Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework, which combines explicit text-based and implicit feature-space augmentation to enhance data diversity and model robustness. The explicit augmentation utilizes large language models to enhance textual information through five diverse generation strategies. For implicit augmentation, we design five novel perturbation techniques that operate in the feature space on structural fused embeddings. These perturbations are crafted to keep the semantic and relational properties of the embeddings and make them more diverse. Specifically, SED-Aug outperforms the best baseline model by approximately 17.67% on the Twitter2012 dataset and by about 15.57% on the Twitter2018 dataset in terms of the average F1 score. The code is available at GitHub: https://github.com/congboma/SED-Aug.