WATCHED: A Web AI Agent Tool for Combating Hate Speech by Expanding Data

📄 arXiv: 2509.01379v1 📥 PDF

作者: Paloma Piot, Diego Sánchez, Javier Parapar

分类: cs.CL

发布日期: 2025-09-01


💡 一句话要点

提出WATCHED,一种结合LLM与专业工具的AI Agent,用于辅助内容审核员打击网络仇恨言论。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 AI Agent 大型语言模型 内容审核 自然语言处理

📋 核心要点

  1. 现有方法在检测和解释仇恨言论方面存在不足,缺乏结合自动化与人工审核的有效工具。
  2. WATCHED通过构建AI Agent,结合LLM、BERT分类器、Urban Dictionary等工具,模拟人工审核员的决策过程。
  3. 实验表明,WATCHED在仇恨言论检测方面超越了现有方法,宏F1值达到0.91,显著提升了性能。

📝 摘要(中文)

网络空间中的在线危害日益严重,威胁用户安全并降低对社交媒体平台的信任,其中最顽固的形式之一是仇恨言论。为了解决这个问题,我们需要结合自动化系统的速度和规模与人工审核员的判断和洞察力的工具。这些工具不仅应发现有害内容,还应清晰地解释其决策,从而帮助建立信任和理解。本文介绍了一种名为WATCHED的聊天机器人,旨在支持内容审核员处理仇恨言论。该聊天机器人构建为一个人工智能代理系统,使用大型语言模型以及多个专用工具。它将新帖子与仇恨言论和中性内容的真实示例进行比较,使用基于BERT的分类器来帮助标记有害消息,使用Urban Dictionary等来源查找俚语和非正式语言,生成思维链推理,并检查平台指南以解释和支持其决策。这种组合使聊天机器人不仅可以检测仇恨言论,还可以根据先例和政策解释内容为何被认为是有害的。实验结果表明,我们提出的方法超越了现有的最先进方法,达到了0.91的宏F1分数。该工具专为审核员、安全团队和研究人员设计,通过支持人工智能和人工监督之间的协作来帮助减少在线危害。

🔬 方法详解

问题定义:论文旨在解决在线仇恨言论检测和解释的问题。现有方法通常依赖于单一模型或规则,难以兼顾检测准确性和可解释性,并且缺乏对上下文和语义的深入理解。此外,现有方法在处理俚语、非正式语言以及不断演变的仇恨言论表达形式方面存在局限性。

核心思路:论文的核心思路是构建一个AI Agent,模拟人工审核员的决策过程。该Agent通过整合多种工具和知识来源,对帖子进行多维度分析,并生成链式推理,从而提高检测准确性和可解释性。这种设计旨在弥合自动化系统与人工审核之间的差距,实现人机协同。

技术框架:WATCHED的整体架构包含以下主要模块:1) 帖子分析模块:将新帖子与仇恨言论和中性内容的真实示例进行比较。2) 仇恨言论分类模块:使用基于BERT的分类器来标记有害消息。3) 俚语和非正式语言查找模块:使用Urban Dictionary等来源查找俚语和非正式语言。4) 推理生成模块:生成链式推理,解释决策过程。5) 平台指南检查模块:检查平台指南,以支持其决策。这些模块协同工作,共同完成仇恨言论的检测和解释任务。

关键创新:WATCHED的关键创新在于其AI Agent的设计,它将大型语言模型与多个专业工具相结合,实现了对仇恨言论的全面分析和解释。与传统的单一模型方法相比,WATCHED能够更好地理解上下文、语义和意图,从而提高检测准确性和可解释性。此外,WATCHED的链式推理生成能力使其能够清晰地解释其决策过程,增强了用户信任。

关键设计:论文中BERT分类器使用了预训练的BERT模型,并针对仇恨言论检测任务进行了微调。链式推理生成模块使用了大型语言模型,并设计了特定的prompt,引导模型生成合理的推理过程。Urban Dictionary等外部知识库的引入,增强了模型对俚语和非正式语言的理解能力。具体的参数设置和损失函数等技术细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WATCHED在仇恨言论检测任务中取得了显著的性能提升,宏F1值达到0.91,超越了现有的最先进方法。这表明WATCHED的AI Agent设计能够有效结合多种工具和知识来源,提高检测准确性和可解释性。具体的基线模型和提升幅度可能在论文中有更详细的描述,属于未知信息。

🎯 应用场景

WATCHED可应用于社交媒体平台、在线论坛、评论区等场景,辅助内容审核员快速准确地识别和处理仇恨言论,减少网络暴力和歧视,维护健康的网络环境。该工具还可用于研究仇恨言论的演变趋势和传播规律,为制定更有效的治理策略提供支持。未来,WATCHED有望扩展到其他类型的在线有害内容检测,例如虚假信息、网络欺凌等。

📄 摘要(原文)

Online harms are a growing problem in digital spaces, putting user safety at risk and reducing trust in social media platforms. One of the most persistent forms of harm is hate speech. To address this, we need tools that combine the speed and scale of automated systems with the judgment and insight of human moderators. These tools should not only find harmful content but also explain their decisions clearly, helping to build trust and understanding. In this paper, we present WATCHED, a chatbot designed to support content moderators in tackling hate speech. The chatbot is built as an Artificial Intelligence Agent system that uses Large Language Models along with several specialised tools. It compares new posts with real examples of hate speech and neutral content, uses a BERT-based classifier to help flag harmful messages, looks up slang and informal language using sources like Urban Dictionary, generates chain-of-thought reasoning, and checks platform guidelines to explain and support its decisions. This combination allows the chatbot not only to detect hate speech but to explain why content is considered harmful, grounded in both precedent and policy. Experimental results show that our proposed method surpasses existing state-of-the-art methods, reaching a macro F1 score of 0.91. Designed for moderators, safety teams, and researchers, the tool helps reduce online harms by supporting collaboration between AI and human oversight.