Promoting Security and Trust on Social Networks: Explainable Cyberbullying Detection Using Large Language Models in a Stream-Based Machine Learning Framework

📄 arXiv: 2505.03746v1 📥 PDF

作者: Silvia García-Méndez, Francisco De Arriba-Pérez

分类: cs.SI, cs.AI

发布日期: 2025-04-07

期刊: In 11th International Conference on SNAMS (pp. 25-32). IEEE (2024)

DOI: 10.1109/SNAMS64316.2024.10883785


💡 一句话要点

提出基于流式机器学习框架和大型语言模型的可解释网络欺凌检测方案,提升社交网络安全。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络欺凌检测 流式机器学习 大型语言模型 特征工程 可解释性AI 社交网络安全 实时检测

📋 核心要点

  1. 现有方法难以有效应对网络欺凌言论的快速演变和复杂性,缺乏实时性和可解释性。
  2. 利用流式机器学习的增量学习能力和大型语言模型的强大特征提取能力,构建实时可解释的网络欺凌检测系统。
  3. 实验结果表明,该方法在各项指标上均接近90%,优于现有方法,有效提升了网络欺凌检测的准确性和效率。

📝 摘要(中文)

社交媒体平台在当今社会至关重要,但同时也滋生了网络欺凌等负面行为。本文提出了一种创新的实时网络欺凌检测方案,该方案利用流式机器学习模型增量式地处理数据,并结合大型语言模型进行特征工程,以应对网络辱骂和仇恨言论的演变特性。系统提供了一个可解释性仪表板,以提高其可信度、可靠性和可问责性。实验结果表明,该方案在所有评估指标上都取得了接近90%的优异性能,并超过了文献中其他同类方法。最终,该方案通过及时检测辱骂行为,防止长期骚扰,减少其对社会造成的负面影响,从而有助于在线社区的安全。

🔬 方法详解

问题定义:本文旨在解决社交网络中日益猖獗的网络欺凌问题。现有方法通常依赖于静态数据集和传统的机器学习模型,难以适应网络欺凌言论的快速演变,且缺乏实时性和可解释性,无法有效应对新型欺凌行为。

核心思路:本文的核心思路是结合流式机器学习和大型语言模型,构建一个能够实时处理数据、自动提取特征并提供可解释性结果的网络欺凌检测系统。流式机器学习能够增量式地学习新数据,适应欺凌言论的变化;大型语言模型能够捕捉文本的深层语义信息,提高检测准确率;可解释性仪表板则能够帮助用户理解系统的决策过程,增强信任感。

技术框架:该系统主要包含以下几个模块:1) 数据流输入模块,负责接收社交网络上的实时数据流;2) 特征工程模块,利用大型语言模型(LLMs)从文本数据中提取特征;3) 流式机器学习模型,使用提取的特征进行网络欺凌检测,并随着新数据的到来不断更新模型;4) 可解释性仪表板,展示模型的决策过程和关键特征,提供可解释性分析。

关键创新:该方法最重要的创新点在于将流式机器学习和大型语言模型相结合,构建了一个实时、自适应且可解释的网络欺凌检测系统。与传统的静态模型相比,该系统能够更好地适应网络欺凌言论的演变;与人工特征工程相比,大型语言模型能够自动提取更有效的特征;可解释性仪表板则增强了系统的透明度和可信度。

关键设计:论文中没有明确指出关键的参数设置、损失函数、网络结构等技术细节,这部分信息未知。但可以推测,大型语言模型的选择和微调、流式机器学习模型的参数设置以及可解释性方法的选择是关键的设计因素。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方案在网络欺凌检测任务中取得了接近90%的性能,显著优于现有方法。该方案在各项评估指标上均表现出色,证明了流式机器学习和大型语言模型在应对动态变化的在线恶意行为方面的有效性。可解释性仪表板的加入也提升了系统的可信度和实用性。

🎯 应用场景

该研究成果可应用于各种社交媒体平台、在线论坛和评论区,用于实时检测和过滤网络欺凌言论,营造更健康的网络环境。该系统还可以为内容审核员提供辅助决策支持,提高审核效率和准确性。未来,该技术有望扩展到其他类型的在线恶意行为检测,例如仇恨言论、虚假信息等。

📄 摘要(原文)

Social media platforms enable instant and ubiquitous connectivity and are essential to social interaction and communication in our technological society. Apart from its advantages, these platforms have given rise to negative behaviors in the online community, the so-called cyberbullying. Despite the many works involving generative Artificial Intelligence (AI) in the literature lately, there remain opportunities to study its performance apart from zero/few-shot learning strategies. Accordingly, we propose an innovative and real-time solution for cyberbullying detection that leverages stream-based Machine Learning (ML) models able to process the incoming samples incrementally and Large Language Models (LLMS) for feature engineering to address the evolving nature of abusive and hate speech online. An explainability dashboard is provided to promote the system's trustworthiness, reliability, and accountability. Results on experimental data report promising performance close to 90 % in all evaluation metrics and surpassing those obtained by competing works in the literature. Ultimately, our proposal contributes to the safety of online communities by timely detecting abusive behavior to prevent long-lasting harassment and reduce the negative consequences in society.