WATCHED: A Web AI Agent Tool for Combating Hate Speech by Expanding Data
作者: Paloma Piot, Diego Sánchez, Javier Parapar
分类: cs.CL
发布日期: 2025-09-01
💡 一句话要点
提出WATCHED,一种基于Web AI Agent的内容审核工具,用于检测和解释仇恨言论。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 仇恨言论检测 内容审核 人工智能代理 大型语言模型 可解释性AI
📋 核心要点
- 现有在线仇恨言论检测方法缺乏可解释性,难以建立用户信任,且人工审核效率低。
- WATCHED通过结合大型语言模型、BERT分类器、外部知识库和平台指南,实现仇恨言论检测与解释。
- 实验表明,WATCHED的宏F1分数达到0.91,超越现有方法,证明了其有效性。
📝 摘要(中文)
在线危害是数字空间中日益严重的问题,威胁用户安全并降低对社交媒体平台的信任。仇恨言论是其中一种最顽固的形式。为了解决这个问题,我们需要将自动化系统的速度和规模与人工审核员的判断和洞察力相结合的工具。这些工具不仅应该找到有害内容,还应该清楚地解释其决策,帮助建立信任和理解。本文介绍了WATCHED,一个旨在支持内容审核员处理仇恨言论的聊天机器人。该聊天机器人构建为一个人工智能代理系统,使用大型语言模型以及多个专用工具。它将新帖子与仇恨言论和中性内容的真实示例进行比较,使用基于BERT的分类器来帮助标记有害消息,使用Urban Dictionary等来源查找俚语和非正式语言,生成思维链推理,并检查平台指南以解释和支持其决策。这种组合使聊天机器人不仅可以检测仇恨言论,还可以根据先例和政策解释内容为何被认为是有害的。实验结果表明,我们提出的方法优于现有的最先进方法,达到了0.91的宏F1分数。该工具专为审核员、安全团队和研究人员设计,通过支持人工智能和人工监督之间的协作来帮助减少在线危害。
🔬 方法详解
问题定义:论文旨在解决在线仇恨言论检测和解释的问题。现有方法通常缺乏可解释性,难以让用户理解为何内容被判定为仇恨言论。此外,人工审核效率低下,难以应对海量信息。因此,需要一种能够自动检测仇恨言论并提供合理依据的工具。
核心思路:论文的核心思路是构建一个基于Web AI Agent的聊天机器人WATCHED,该机器人能够模拟人工审核员的思维过程,结合多种工具和知识来源,对内容进行综合分析,并给出可解释的判断。这种设计旨在提高仇恨言论检测的准确性和可信度。
技术框架:WATCHED的整体架构包含以下几个主要模块:1) 内容比较模块:将新帖子与已知的仇恨言论和中性内容示例进行比较。2) BERT分类模块:使用基于BERT的分类器来标记有害信息。3) 知识查询模块:利用Urban Dictionary等资源查找俚语和非正式语言。4) 推理生成模块:生成思维链推理,解释判断依据。5) 平台指南检查模块:检查平台指南,确保判断符合政策。这些模块协同工作,最终输出仇恨言论检测结果和解释。
关键创新:WATCHED的关键创新在于其综合利用多种工具和知识来源,并生成可解释的推理过程。与传统的单一模型方法不同,WATCHED能够模拟人工审核员的思维方式,提供更全面和可信的判断。此外,将平台指南纳入判断依据,确保了结果的合规性。
关键设计:论文中未明确给出关键参数设置、损失函数或网络结构的具体细节。但可以推断,BERT分类器的训练需要大量的标注数据,并且需要针对仇恨言论的特点进行微调。此外,思维链推理的生成可能依赖于大型语言模型的上下文学习能力,需要精心设计提示词(prompt)。Urban Dictionary等外部知识库的集成也需要考虑数据格式和查询效率。
📊 实验亮点
实验结果表明,WATCHED在仇恨言论检测任务中取得了显著的性能提升,宏F1分数达到0.91,超越了现有的最先进方法。这一结果表明,WATCHED能够有效地检测和解释仇恨言论,为内容审核员提供有力的支持。具体的基线模型和提升幅度未在摘要中明确给出,需要查阅原文。
🎯 应用场景
WATCHED可应用于社交媒体平台、在线论坛等场景,辅助内容审核员进行仇恨言论检测和管理,提高审核效率和准确性。该工具还可用于教育和研究,帮助用户理解仇恨言论的特征和危害,促进网络空间的健康发展。未来,该技术有望扩展到其他类型的在线有害内容检测,例如网络欺凌和虚假信息。
📄 摘要(原文)
Online harms are a growing problem in digital spaces, putting user safety at risk and reducing trust in social media platforms. One of the most persistent forms of harm is hate speech. To address this, we need tools that combine the speed and scale of automated systems with the judgment and insight of human moderators. These tools should not only find harmful content but also explain their decisions clearly, helping to build trust and understanding. In this paper, we present WATCHED, a chatbot designed to support content moderators in tackling hate speech. The chatbot is built as an Artificial Intelligence Agent system that uses Large Language Models along with several specialised tools. It compares new posts with real examples of hate speech and neutral content, uses a BERT-based classifier to help flag harmful messages, looks up slang and informal language using sources like Urban Dictionary, generates chain-of-thought reasoning, and checks platform guidelines to explain and support its decisions. This combination allows the chatbot not only to detect hate speech but to explain why content is considered harmful, grounded in both precedent and policy. Experimental results show that our proposed method surpasses existing state-of-the-art methods, reaching a macro F1 score of 0.91. Designed for moderators, safety teams, and researchers, the tool helps reduce online harms by supporting collaboration between AI and human oversight.