SynBullying: A Multi LLM Synthetic Conversational Dataset for Cyberbullying Detection

📄 arXiv: 2511.11599v2 📥 PDF

作者: Arefeh Kazemi, Hamza Qadeer, Joachim Wagner, Hossein Hosseini, Sri Balaaji Natarajan Kalaivendan, Brian Davis

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-10-30 (更新: 2025-12-09)


💡 一句话要点

提出SynBullying:一个用于网络欺凌检测的多LLM合成对话数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络欺凌检测 合成数据 大型语言模型 对话数据集 上下文感知

📋 核心要点

  1. 现有网络欺凌检测数据集规模有限,且存在伦理风险,难以捕捉对话上下文。
  2. 利用多个大型语言模型生成合成对话数据,模拟真实的欺凌场景,并进行细粒度标注。
  3. 实验表明,SynBullying数据集可作为独立的训练数据或增强数据,提升网络欺凌检测性能。

📝 摘要(中文)

本文介绍SynBullying,一个合成的多LLM对话数据集,用于研究和检测网络欺凌(CB)。SynBullying通过利用大型语言模型(LLM)模拟真实的欺凌互动,为人工数据收集提供了一种可扩展且符合伦理的安全替代方案。该数据集提供:(i)对话结构,捕捉多轮交流而非孤立的帖子;(ii)上下文感知的标注,在对话流程中评估危害性,考虑上下文、意图和话语动态;(iii)细粒度的标签,涵盖各种CB类别,用于详细的语言和行为分析。我们从五个维度评估SynBullying,包括对话结构、词汇模式、情感/毒性、角色动态、危害强度和CB类型分布。我们进一步通过测试其作为独立训练数据和作为CB分类的增强源的性能来检验它的效用。

🔬 方法详解

问题定义:论文旨在解决网络欺凌检测中数据稀缺和伦理风险的问题。现有的人工标注数据集成本高昂,规模有限,并且可能包含令人反感的内容。此外,孤立的帖子难以捕捉对话的上下文信息,影响检测准确性。

核心思路:论文的核心思路是利用大型语言模型(LLMs)生成合成的对话数据,模拟真实的欺凌场景。通过控制LLM的生成过程,可以创建包含不同欺凌类型、角色动态和危害程度的对话,从而构建一个大规模、多样化且符合伦理的数据集。

技术框架:SynBullying数据集的构建流程主要包括以下几个阶段:1) 使用多个LLM(具体模型未知)生成对话;2) 对生成的对话进行上下文感知的标注,标注内容包括危害性、欺凌类型、角色等;3) 对数据集进行评估,包括对话结构、词汇模式、情感/毒性、角色动态、危害强度和CB类型分布等;4) 将数据集用于网络欺凌检测模型的训练和评估。

关键创新:该论文的关键创新在于利用LLM生成合成对话数据,从而避免了人工标注的伦理风险和成本。此外,该数据集提供了上下文感知的标注,可以更好地捕捉对话的语义信息,从而提高网络欺凌检测的准确性。

关键设计:论文中关于LLM的具体prompt设计、生成策略、标注规范、以及用于评估和训练模型的具体参数设置等技术细节未知。但可以推测,prompt的设计需要能够引导LLM生成包含不同欺凌类型的对话,标注规范需要清晰明确,以保证标注质量,训练模型的参数需要根据数据集的特点进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了SynBullying数据集的有效性。实验结果表明,SynBullying数据集可以作为独立的训练数据,也可以作为增强数据,提升网络欺凌分类模型的性能。具体的性能提升幅度以及对比的基线模型未知。

🎯 应用场景

SynBullying数据集可应用于网络欺凌检测模型的训练和评估,帮助提高模型在社交媒体平台、在线论坛等场景下的检测准确率。该数据集的合成特性使其易于扩展和定制,可以用于研究不同类型的网络欺凌行为,并开发更有效的干预措施。未来,该方法可以推广到其他类型的有害内容检测任务中。

📄 摘要(原文)

We introduce SynBullying, a synthetic multi-LLM conversational dataset for studying and detecting cyberbullying (CB). SynBullying provides a scalable and ethically safe alternative to human data collection by leveraging large language models (LLMs) to simulate realistic bullying interactions. The dataset offers (i) conversational structure, capturing multi-turn exchanges rather than isolated posts; (ii) context-aware annotations, where harmfulness is assessed within the conversational flow considering context, intent, and discourse dynamics; and (iii) fine-grained labeling, covering various CB categories for detailed linguistic and behavioral analysis. We evaluate SynBullying across five dimensions, including conversational structure, lexical patterns, sentiment/toxicity, role dynamics, harm intensity, and CB-type distribution. We further examine its utility by testing its performance as standalone training data and as an augmentation source for CB classification.