SafeSpeech: A Comprehensive and Interactive Tool for Analysing Sexist and Abusive Language in Conversations
作者: Xingwei Tan, Chen Lyu, Hafiz Muhammad Umer, Sahrish Khan, Mahathi Parvatham, Lois Arthurs, Simon Cullen, Shelley Wilson, Arshad Jhumka, Gabriele Pergola
分类: cs.CL
发布日期: 2025-03-09
备注: NAACL 2025 system demonstration camera-ready
💡 一句话要点
SafeSpeech:一个用于分析对话中性别歧视和辱骂性语言的综合交互式工具
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 有害语言检测 性别歧视检测 对话分析 大型语言模型 多粒度检测
📋 核心要点
- 现有方法在检测有害语言时,主要关注孤立的消息级别分类,忽略了对话语境中的毒性。
- SafeSpeech平台通过集成微调分类器和大型语言模型,实现多粒度检测、对话摘要和人物画像。
- 实验结果表明,SafeSpeech在多个基准数据集上复现了最先进的性能,包括细粒度的性别歧视检测。
📝 摘要(中文)
检测包括性别歧视、骚扰和辱骂行为在内的有害语言仍然是一个关键挑战,尤其是在其微妙和依赖于语境的形式中。现有的方法主要集中在孤立的消息级别分类,忽略了在对话语境中出现的毒性。为了促进和支持未来在这方面的研究,我们推出了SafeSpeech,一个用于有害内容检测和分析的综合平台,它弥合了消息级别和对话级别的洞察力。该平台集成了微调的分类器和大型语言模型(LLM),以实现多粒度检测、感知毒性的对话摘要和人物画像。SafeSpeech还结合了解释性机制,例如困惑度增益分析,以突出驱动预测的语言元素。在包括EDOS、OffensEval和HatEval在内的基准数据集上的评估表明,该平台能够复现最先进的性能,包括细粒度的性别歧视检测。
🔬 方法详解
问题定义:该论文旨在解决在对话中检测性别歧视和辱骂性语言的难题。现有方法主要关注孤立的消息级别分类,忽略了对话上下文的重要性,导致无法有效识别微妙和依赖语境的有害语言。因此,需要一种能够综合考虑消息级别和对话级别的毒性检测方法。
核心思路:SafeSpeech的核心思路是构建一个综合平台,该平台能够利用微调的分类器和大型语言模型(LLM)进行多粒度检测,并结合对话摘要和人物画像技术,从而更全面地理解和识别有害语言。通过引入解释性机制,如困惑度增益分析,可以突出驱动预测的语言元素,提高模型的可解释性。
技术框架:SafeSpeech平台包含以下主要模块:1) 微调的分类器:用于消息级别的毒性检测;2) 大型语言模型(LLM):用于对话级别的上下文理解和毒性检测;3) 对话摘要模块:用于生成感知毒性的对话摘要;4) 人物画像模块:用于分析对话参与者的特征;5) 解释性模块:利用困惑度增益分析等方法,解释模型的预测结果。整体流程是从对话数据输入开始,经过各个模块的处理,最终输出毒性检测结果、对话摘要、人物画像和解释性分析。
关键创新:SafeSpeech的关键创新在于其综合性,它不仅关注消息级别的毒性,还考虑了对话上下文的影响,并集成了多种技术(微调分类器、LLM、对话摘要、人物画像、解释性分析)以实现更全面和准确的毒性检测。此外,该平台还提供了交互式界面,方便用户进行分析和研究。
关键设计:论文中提到使用了微调的分类器和大型语言模型,但没有详细说明具体的网络结构、损失函数或参数设置。困惑度增益分析被用作解释性机制,但具体实现细节未知。未来的研究可以进一步探索这些技术细节,以提高SafeSpeech的性能和可解释性。
🖼️ 关键图片
📊 实验亮点
SafeSpeech在EDOS、OffensEval和HatEval等基准数据集上进行了评估,结果表明该平台能够复现最先进的性能,包括细粒度的性别歧视检测。虽然论文中没有提供具体的性能指标和提升幅度,但强调了SafeSpeech在多个任务上的有效性,证明了其在有害语言检测方面的潜力。
🎯 应用场景
SafeSpeech平台可应用于在线社交平台、论坛、评论区等场景,用于自动检测和过滤有害言论,维护健康的在线交流环境。该研究的实际价值在于提高有害语言检测的准确性和效率,减少人工审核的工作量,并为用户提供更安全、友好的在线体验。未来,SafeSpeech可以进一步扩展到其他语言和文化背景,并与其他安全工具集成,构建更完善的网络安全体系。
📄 摘要(原文)
Detecting toxic language including sexism, harassment and abusive behaviour, remains a critical challenge, particularly in its subtle and context-dependent forms. Existing approaches largely focus on isolated message-level classification, overlooking toxicity that emerges across conversational contexts. To promote and enable future research in this direction, we introduce SafeSpeech, a comprehensive platform for toxic content detection and analysis that bridges message-level and conversation-level insights. The platform integrates fine-tuned classifiers and large language models (LLMs) to enable multi-granularity detection, toxic-aware conversation summarization, and persona profiling. SafeSpeech also incorporates explainability mechanisms, such as perplexity gain analysis, to highlight the linguistic elements driving predictions. Evaluations on benchmark datasets, including EDOS, OffensEval, and HatEval, demonstrate the reproduction of state-of-the-art performance across multiple tasks, including fine-grained sexism detection.