Synthetic vs. Gold: The Role of LLM Generated Labels and Data in Cyberbullying Detection

📄 arXiv: 2502.15860v3 📥 PDF

作者: Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Kanishk Verma, Brian Davis

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-21 (更新: 2025-08-20)


💡 一句话要点

利用LLM生成数据和标签,提升网络欺凌检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络欺凌检测 大型语言模型 合成数据 数据增强 BERT 自然语言处理 自动标注

📋 核心要点

  1. 网络欺凌检测面临缺乏针对儿童语言风格的标注数据难题,人工标注成本高昂且涉及伦理风险。
  2. 利用LLM生成合成数据和自动标注真实数据,旨在降低数据获取成本并规避伦理问题。
  3. 实验表明,基于LLM生成的数据训练的BERT模型,性能接近甚至可媲美真实数据训练的模型。

📝 摘要(中文)

网络欺凌(CB),尤其是对儿童,构成了紧迫的威胁,因此迫切需要强大的检测系统来确保在线安全。虽然存在关于在线辱骂的大规模数据集,但专门反映儿童使用的语言和交流方式的标记数据仍然存在显著差距。由于伦理、法律和技术障碍,从儿童等弱势群体获取此类数据具有挑战性。此外,这些数据集的创建严重依赖于人工标注,这不仅耗费资源,而且由于标注者接触有害内容而引起重大担忧。在本文中,我们通过利用大型语言模型(LLM)生成合成数据和标签来解决这些挑战。我们的实验表明,合成数据使基于BERT的CB分类器能够达到接近在完全真实数据集上训练的分类器的性能(75.8% vs. 81.5%的准确率)。此外,LLM可以有效地标记真实但未标记的数据,从而使BERT分类器达到相当的性能水平(79.1% vs. 81.5%的准确率)。这些结果突出了LLM作为一种可扩展、合乎道德且经济高效的解决方案在生成CB检测数据方面的潜力。

🔬 方法详解

问题定义:论文旨在解决网络欺凌检测中,缺乏针对儿童语言风格的标注数据的问题。现有方法依赖人工标注,成本高昂,且标注人员会接触到有害内容,存在伦理风险。此外,直接从儿童群体获取数据也面临法律和伦理障碍。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成合成数据和自动标注真实数据,以替代或补充人工标注。这样可以降低数据获取成本,规避伦理问题,并加速网络欺凌检测系统的开发。

技术框架:整体框架包含两个主要部分:1) 使用LLM生成合成数据,包括欺凌和非欺凌样本,并自动生成标签。2) 使用LLM对真实但未标注的数据进行标注。然后,使用这些合成数据或LLM标注的真实数据训练基于BERT的网络欺凌分类器。最后,评估这些分类器在真实数据集上的性能。

关键创新:关键创新在于利用LLM生成合成数据和标签,以及利用LLM对真实数据进行自动标注。这与传统的人工标注方法形成对比,提供了一种更具可扩展性、成本效益和伦理性的解决方案。

关键设计:论文使用了BERT作为基础分类器。在数据生成方面,使用了LLM(具体型号未知)来生成文本数据,并根据生成过程自动赋予标签。在训练方面,使用了标准的BERT训练流程,损失函数和优化器等细节未知。论文比较了使用合成数据、LLM标注的真实数据和人工标注的真实数据训练的BERT模型的性能。

📊 实验亮点

实验结果表明,使用LLM生成的合成数据训练的BERT模型,其准确率达到75.8%,接近使用真实数据训练的BERT模型(81.5%)。此外,使用LLM标注的真实数据训练的BERT模型,其准确率达到79.1%,也接近使用真实数据训练的模型。这些结果表明,LLM在生成网络欺凌检测数据方面具有巨大潜力。

🎯 应用场景

该研究成果可应用于各种在线社交平台和教育应用中,用于自动检测和过滤网络欺凌行为,保护儿童和青少年等弱势群体。通过降低数据获取成本和伦理风险,可以加速网络欺凌检测系统的开发和部署,营造更安全的网络环境。未来,该方法还可扩展到其他类型的在线有害内容检测。

📄 摘要(原文)

Cyberbullying (CB) presents a pressing threat, especially to children, underscoring the urgent need for robust detection systems to ensure online safety. While large-scale datasets on online abuse exist, there remains a significant gap in labeled data that specifically reflects the language and communication styles used by children. The acquisition of such data from vulnerable populations, such as children, is challenging due to ethical, legal and technical barriers. Moreover, the creation of these datasets relies heavily on human annotation, which not only strains resources but also raises significant concerns due to annotators exposure to harmful content. In this paper, we address these challenges by leveraging Large Language Models (LLMs) to generate synthetic data and labels. Our experiments demonstrate that synthetic data enables BERT-based CB classifiers to achieve performance close to that of those trained on fully authentic datasets (75.8% vs. 81.5% accuracy). Additionally, LLMs can effectively label authentic yet unlabeled data, allowing BERT classifiers to attain a comparable performance level (79.1% vs. 81.5% accuracy). These results highlight the potential of LLMs as a scalable, ethical, and cost-effective solution for generating data for CB detection.