Assessing Large Language Models for Online Extremism Research: Identification, Explanation, and New Knowledge
作者: Beidi Dong, Jin R. Lee, Ziwei Zhu, Balassubramanian Srinivasan
分类: cs.CL, cs.AI
发布日期: 2024-08-29
💡 一句话要点
评估大型语言模型在网络极端主义研究中的应用:识别、解释与新知识发现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 极端主义检测 零样本学习 自然语言处理 内容审核
📋 核心要点
- 当前缺乏有效工具自动检测和限制网络极端主义内容的传播,人工审核成本高昂且效率低下。
- 本研究探索使用大型语言模型(LLM),特别是GPT系列,直接进行极端主义内容识别和分类,无需大量标注数据。
- 实验表明,GPT模型在零样本学习设置下优于传统BERT模型,尤其是在结合精心设计的提示词时,效果更为显著。
📝 摘要(中文)
美国暴力极端主义显著增加,促使人们需要自动化工具来检测和限制极端主义意识形态在网上的传播。本研究评估了BERT和GPT在检测和分类在线国内极端主义帖子方面的性能。我们收集了包含“极右”和“极左”意识形态关键词的社交媒体帖子,并手动将其标记为极端主义或非极端主义。极端主义帖子根据一个工作定义框架,进一步被分类为五个极端主义构成要素中的一个或多个。BERT模型的性能基于训练数据大小和类别之间的知识转移进行评估。我们还比较了GPT 3.5和GPT 4模型在使用不同提示时的性能:朴素提示、外行定义提示、角色扮演提示和专业定义提示。结果表明,性能最佳的GPT模型优于性能最佳的BERT模型,更详细的提示通常会产生更好的结果。然而,过于复杂的提示可能会损害性能。不同版本的GPT对它们认为的极端主义有独特的敏感性。GPT 3.5在分类极左极端主义帖子方面表现更好,而GPT 4在分类极右极端主义帖子方面表现更好。以GPT模型为代表的大型语言模型在在线极端主义分类任务中具有巨大的潜力,在零样本设置中超越了传统的BERT模型。未来的研究应探索人机交互,以优化GPT模型用于极端主义检测和分类任务,从而开发更高效(例如,更快,更少的工作量)和有效(例如,更少的错误或失误)的方法来识别极端主义内容。
🔬 方法详解
问题定义:论文旨在解决在线极端主义内容自动识别与分类的问题。现有方法,如基于BERT的模型,通常需要大量标注数据进行训练,且泛化能力有限。人工审核成本高,效率低,难以应对快速增长的网络内容。
核心思路:利用大型语言模型(LLM)强大的零样本学习能力,直接对文本内容进行分类,无需或仅需少量标注数据。通过设计不同的提示词(prompt),引导LLM理解极端主义的定义和特征,从而提高分类准确率。
技术框架:研究主要分为数据收集、数据标注、模型训练与评估三个阶段。首先,收集包含特定意识形态关键词的社交媒体帖子。然后,人工标注这些帖子是否属于极端主义内容,并进一步细分为不同的极端主义要素。最后,使用BERT和GPT模型进行训练和评估,比较不同模型和不同提示词下的性能。
关键创新:本研究的关键创新在于探索了大型语言模型在零样本极端主义内容识别中的潜力。与传统的监督学习方法相比,该方法无需大量标注数据,降低了成本,提高了效率。此外,通过设计不同的提示词,可以引导LLM更好地理解任务,提高分类准确率。
关键设计:研究中使用了多种提示词策略,包括朴素提示、外行定义提示、角色扮演提示和专业定义提示。这些提示词旨在从不同角度引导LLM理解极端主义的定义和特征。此外,研究还比较了不同版本的GPT模型(GPT 3.5和GPT 4)在不同提示词下的性能,以探索不同模型对极端主义的敏感性。
📊 实验亮点
实验结果表明,GPT模型在零样本设置下优于BERT模型。GPT模型在结合精心设计的提示词后,能够达到更高的分类准确率。GPT 3.5在分类极左极端主义帖子方面表现更好,而GPT 4在分类极右极端主义帖子方面表现更好。更详细的提示通常会产生更好的结果,但过于复杂的提示可能会损害性能。
🎯 应用场景
该研究成果可应用于自动化内容审核系统,帮助社交媒体平台、新闻网站等快速识别和过滤极端主义内容,减少其传播。此外,该方法还可以用于分析在线社区的极端主义倾向,为政策制定者提供参考。未来,结合人机交互,可以进一步优化LLM在极端主义检测中的性能,构建更高效、准确的内容审核工具。
📄 摘要(原文)
The United States has experienced a significant increase in violent extremism, prompting the need for automated tools to detect and limit the spread of extremist ideology online. This study evaluates the performance of Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-Trained Transformers (GPT) in detecting and classifying online domestic extremist posts. We collected social media posts containing "far-right" and "far-left" ideological keywords and manually labeled them as extremist or non-extremist. Extremist posts were further classified into one or more of five contributing elements of extremism based on a working definitional framework. The BERT model's performance was evaluated based on training data size and knowledge transfer between categories. We also compared the performance of GPT 3.5 and GPT 4 models using different prompts: naïve, layperson-definition, role-playing, and professional-definition. Results showed that the best performing GPT models outperformed the best performing BERT models, with more detailed prompts generally yielding better results. However, overly complex prompts may impair performance. Different versions of GPT have unique sensitives to what they consider extremist. GPT 3.5 performed better at classifying far-left extremist posts, while GPT 4 performed better at classifying far-right extremist posts. Large language models, represented by GPT models, hold significant potential for online extremism classification tasks, surpassing traditional BERT models in a zero-shot setting. Future research should explore human-computer interactions in optimizing GPT models for extremist detection and classification tasks to develop more efficient (e.g., quicker, less effort) and effective (e.g., fewer errors or mistakes) methods for identifying extremist content.