Detecting harassment and defamation in cyberbullying with emotion-adaptive training

📄 arXiv: 2501.16925v1 📥 PDF

作者: Peiling Yi, Arkaitz Zubiaga, Yunfei Long

分类: cs.CL

发布日期: 2025-01-28


💡 一句话要点

提出情感自适应训练框架,提升低资源场景下网络欺凌中骚扰与诽谤的检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络欺凌检测 情感自适应训练 低资源学习 Transformer模型 骚扰与诽谤

📋 核心要点

  1. 现有网络欺凌检测方法主要关注骚扰,忽略了诋毁等其他形式,且缺乏针对不同形式欺凌的训练数据。
  2. 提出情感自适应训练框架(EAT),利用情感检测领域的知识迁移,辅助检测间接的网络欺凌事件。
  3. 实验表明,EAT在低资源环境下,显著提升了多种Transformer模型在网络欺凌检测任务中的性能,平均宏F1提升20%。

📝 摘要(中文)

现有的社交媒体网络欺凌检测研究主要集中于骚扰,通常被视为二元分类任务。然而,网络欺凌包含多种形式,如诋毁和骚扰,这些都是名人经常面临的问题。此外,针对这些不同形式的网络欺凌,合适的训练数据仍然稀缺。本研究首先构建了一个名人网络欺凌数据集,涵盖了骚扰和诽谤两种不同的事件类型。我们研究了各种基于Transformer的模型,包括masked (RoBERTa, Bert and DistilBert), replacing(Electra), autoregressive (XLnet), masked&permuted (Mpnet), text-text (T5) 和大型语言模型 (Llama2 and Llama3) 在低资源设置下的表现。我们发现它们在显式骚扰二元检测方面表现出色。然而,它们在骚扰和诋毁的多分类任务上的性能显著降低。因此,我们提出了一种情感自适应训练框架(EAT),该框架有助于将知识从情感检测领域迁移到网络欺凌检测领域,从而帮助检测间接的网络欺凌事件。在低资源设置下,EAT在九个基于Transformer的模型上,始终将网络欺凌检测任务的平均宏F1、精确率和召回率提高了20%。我们的结论得到了直观的理论见解和广泛实验的支持。

🔬 方法详解

问题定义:论文旨在解决网络欺凌检测中,对骚扰和诽谤等多种形式识别不足,以及在低资源情况下性能不佳的问题。现有方法主要集中于显式骚扰的二元分类,忽略了隐式的、多类别的欺凌行为,并且缺乏有效利用其他相关领域知识的能力。

核心思路:论文的核心思路是通过情感自适应训练(EAT)框架,将情感检测领域的知识迁移到网络欺凌检测领域。EAT框架利用情感信息作为桥梁,帮助模型更好地理解文本中的细微情感变化,从而提升对间接和多类别网络欺凌行为的识别能力。

技术框架:EAT框架主要包含以下几个阶段:1) 数据集构建:构建包含骚扰和诽谤两种类型的名人网络欺凌数据集。2) 模型选择:选择多种Transformer模型作为基础模型,包括RoBERTa, Bert, DistilBert, Electra, XLnet, Mpnet, T5, Llama2 和 Llama3。3) 情感自适应训练:使用情感检测数据集对基础模型进行预训练,使其具备情感识别能力。4) 网络欺凌检测:使用预训练的情感感知模型进行网络欺凌检测,并使用网络欺凌数据集进行微调。

关键创新:EAT框架的关键创新在于情感自适应训练策略。传统方法通常直接在网络欺凌数据集上训练模型,而EAT框架则先利用情感检测数据集进行预训练,使模型具备情感识别能力,从而更好地理解网络欺凌文本中的情感色彩,提升检测性能。这种知识迁移的方法有效地解决了低资源情况下的数据稀缺问题。

关键设计:EAT框架的关键设计包括:1) 选择合适的情感检测数据集,确保其与网络欺凌数据集具有一定的相关性。2) 设计有效的情感自适应训练策略,例如使用情感标签作为辅助信息,或者使用情感分类损失函数来指导模型的训练。3) 在网络欺凌检测阶段,可以使用不同的微调策略,例如只微调部分模型参数,或者使用对抗训练等方法来提升模型的鲁棒性。具体的参数设置和损失函数选择需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EAT框架在低资源环境下,显著提升了多种Transformer模型在网络欺凌检测任务中的性能。具体而言,EAT框架在九个基于Transformer的模型上,始终将网络欺凌检测任务的平均宏F1、精确率和召回率提高了20%。这表明EAT框架能够有效利用情感信息,提升模型对网络欺凌行为的识别能力。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核,帮助自动检测和过滤网络欺凌言论,保护用户免受网络暴力侵害。此外,该方法也可用于舆情监控,及时发现和处理涉及诽谤和骚扰的负面信息,维护社会和谐稳定。未来,该研究可扩展到其他类型的网络欺凌检测,例如人肉搜索和恶意曝光等。

📄 摘要(原文)

Existing research on detecting cyberbullying incidents on social media has primarily concentrated on harassment and is typically approached as a binary classification task. However, cyberbullying encompasses various forms, such as denigration and harassment, which celebrities frequently face. Furthermore, suitable training data for these diverse forms of cyberbullying remains scarce. In this study, we first develop a celebrity cyberbullying dataset that encompasses two distinct types of incidents: harassment and defamation. We investigate various types of transformer-based models, namely masked (RoBERTa, Bert and DistilBert), replacing(Electra), autoregressive (XLnet), masked&permuted (Mpnet), text-text (T5) and large language models (Llama2 and Llama3) under low source settings. We find that they perform competitively on explicit harassment binary detection. However, their performance is substantially lower on harassment and denigration multi-classification tasks. Therefore, we propose an emotion-adaptive training framework (EAT) that helps transfer knowledge from the domain of emotion detection to the domain of cyberbullying detection to help detect indirect cyberbullying events. EAT consistently improves the average macro F1, precision and recall by 20% in cyberbullying detection tasks across nine transformer-based models under low-resource settings. Our claims are supported by intuitive theoretical insights and extensive experiments.