Evaluation of Hate Speech Detection Using Large Language Models and Geographical Contextualization

📄 arXiv: 2502.19612v1 📥 PDF

作者: Anwar Hossain Zahid, Monoshi Kumar Roy, Swarna Das

分类: cs.CL, cs.LG

发布日期: 2025-02-26

备注: 6 pages, 2 figures


💡 一句话要点

评估大型语言模型在多语言和地理环境下的仇恨言论检测能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 大型语言模型 地理语境感知 对抗鲁棒性 多语言 评估框架 自然语言处理

📋 核心要点

  1. 现有仇恨言论检测方法缺乏对文化、语言和地理语境的深入理解,难以有效应对对抗性攻击。
  2. 该研究提出一个多维评估框架,从二元分类、地理语境感知和对抗鲁棒性三个方面评估LLM的性能。
  3. 实验结果表明,现有LLM在准确性、语境理解和鲁棒性之间存在权衡,需要在特定场景下选择合适的模型。

📝 摘要(中文)

社交媒体上仇恨言论的泛滥是当今社会面临的严重问题之一,它会导致暴力升级、歧视和社会分裂。由于文化、语言、语境的复杂性和对抗性操纵,检测仇恨言论的问题本质上是多方面的。本研究系统地调查了大型语言模型(LLM)在多语言数据集和不同地理环境下检测仇恨言论的性能。我们的工作提出了一个新的评估框架,包含三个维度:仇恨言论的二元分类、地理感知语境检测以及对抗性生成文本的鲁棒性。我们使用来自五个不同地区的1000条评论的数据集,评估了三个最先进的LLM:Llama2 (13b)、Codellama (7b) 和 DeepSeekCoder (6.7b)。Codellama在二元分类中具有最佳的召回率,为70.6%,F1分数为52.18%,而DeepSeekCoder在地理敏感性方面表现最佳,正确检测出265个位置中的63个。对抗鲁棒性的测试也显示出明显的弱点;Llama2错误分类了62.5%的操纵样本。这些结果揭示了当前版本的LLM在准确性、语境理解和鲁棒性之间的权衡。这项工作为开发具有语境感知能力的多语言仇恨言论检测系统奠定了基础,强调了关键的优势和局限性,从而为未来的研究和实际应用提供了可操作的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多语言和不同地理环境下仇恨言论检测的性能评估问题。现有方法在处理文化、语言和地理语境的复杂性以及对抗性攻击方面存在不足,导致检测准确率和鲁棒性较低。

核心思路:论文的核心思路是通过构建一个多维评估框架,系统地评估LLM在仇恨言论检测中的性能,并分析其在不同语境下的优势和局限性。该框架包含二元分类、地理语境感知和对抗鲁棒性三个维度,能够全面评估LLM的性能。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集来自五个不同地区的1000条评论,构建多语言数据集。2) 模型选择:选择Llama2 (13b)、Codellama (7b) 和 DeepSeekCoder (6.7b) 三个最先进的LLM进行评估。3) 评估指标:采用召回率、F1分数等指标评估二元分类性能;采用地理位置检测准确率评估地理语境感知能力;采用对抗样本攻击评估对抗鲁棒性。4) 实验分析:分析实验结果,揭示LLM在不同维度上的性能表现和权衡。

关键创新:该研究的关键创新在于提出了一个多维评估框架,能够全面评估LLM在仇恨言论检测中的性能,并分析其在不同语境下的优势和局限性。该框架考虑了文化、语言和地理语境的复杂性,以及对抗性攻击的影响,能够更准确地评估LLM的实际应用价值。

关键设计:在地理语境感知方面,论文设计了地理位置检测任务,要求LLM识别评论中提及的地理位置。在对抗鲁棒性方面,论文采用了对抗样本攻击方法,生成对抗样本来测试LLM的鲁棒性。具体而言,使用了文本对抗攻击方法,例如同义词替换和字符扰动,来生成与原始文本语义相似但可能导致模型误判的样本。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Codellama在二元分类中具有最佳的召回率,为70.6%,F1分数为52.18%。DeepSeekCoder在地理敏感性方面表现最佳,正确检测出265个位置中的63个。Llama2在对抗鲁棒性方面表现较差,错误分类了62.5%的操纵样本。这些结果揭示了现有LLM在准确性、语境理解和鲁棒性之间的权衡。

🎯 应用场景

该研究成果可应用于社交媒体平台、在线论坛等场景,用于自动检测和过滤仇恨言论,维护健康的网络环境。通过提升LLM在多语言和地理语境下的仇恨言论检测能力,可以有效减少网络暴力、歧视和社会分裂,促进社会和谐发展。未来,该研究可以进一步扩展到其他类型的有害内容检测,例如虚假信息、网络欺凌等。

📄 摘要(原文)

The proliferation of hate speech on social media is one of the serious issues that is bringing huge impacts to society: an escalation of violence, discrimination, and social fragmentation. The problem of detecting hate speech is intrinsically multifaceted due to cultural, linguistic, and contextual complexities and adversarial manipulations. In this study, we systematically investigate the performance of LLMs on detecting hate speech across multilingual datasets and diverse geographic contexts. Our work presents a new evaluation framework in three dimensions: binary classification of hate speech, geography-aware contextual detection, and robustness to adversarially generated text. Using a dataset of 1,000 comments from five diverse regions, we evaluate three state-of-the-art LLMs: Llama2 (13b), Codellama (7b), and DeepSeekCoder (6.7b). Codellama had the best binary classification recall with 70.6% and an F1-score of 52.18%, whereas DeepSeekCoder had the best performance in geographic sensitivity, correctly detecting 63 out of 265 locations. The tests for adversarial robustness also showed significant weaknesses; Llama2 misclassified 62.5% of manipulated samples. These results bring to light the trade-offs between accuracy, contextual understanding, and robustness in the current versions of LLMs. This work has thus set the stage for developing contextually aware, multilingual hate speech detection systems by underlining key strengths and limitations, therefore offering actionable insights for future research and real-world applications.