Multi3Hate: Multimodal, Multilingual, and Multicultural Hate Speech Detection with Vision-Language Models
作者: Minh Duc Bui, Katharina von der Wense, Anne Lauscher
分类: cs.CL
发布日期: 2024-11-06 (更新: 2025-02-17)
备注: Accepted to NAACL 2025 Main (Camera-Ready Version)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Multi3Hate数据集,揭示多文化背景下视觉-语言模型仇恨言论检测的偏差。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 仇恨言论检测 文化差异 视觉-语言模型 数据集构建 跨语言 零样本学习
📋 核心要点
- 现有视觉-语言模型在处理多模态、多语言的仇恨言论时,未能充分考虑文化差异带来的影响。
- 论文构建了多模态、多语言的平行仇恨言论数据集Multi3Hate,并由多文化背景的标注者进行标注,以捕捉文化差异。
- 实验表明,现有VLM在仇恨言论检测上存在文化偏见,更倾向于与美国文化背景下的标注结果对齐。
📝 摘要(中文)
全球平台上的仇恨言论审核面临着多模态、多语言内容以及不同文化认知带来的独特挑战。为了研究当前的视觉-语言模型(VLMs)如何应对这些细微差别,我们创建了第一个多模态和多语言并行仇恨言论数据集Multi3Hate,该数据集由来自不同文化背景的标注者进行标注。它包含5种语言(英语、德语、西班牙语、印地语和普通话)的300个平行meme样本。我们证明了文化背景显著影响了我们数据集中多模态仇恨言论的标注。国家之间的平均成对协议仅为74%,远低于随机选择的标注者群体。我们的定性分析表明,美国和印度之间最低的成对标签协议(仅67%)可归因于文化因素。然后,我们在零样本设置下使用5个大型VLM进行了实验,发现这些模型与来自美国的注释比与其他文化的注释更一致,即使meme和提示以其他文化的主要语言呈现。
🔬 方法详解
问题定义:论文旨在解决多文化背景下,视觉-语言模型在多模态仇恨言论检测中存在的文化偏见问题。现有方法忽略了不同文化对仇恨言论的理解差异,导致模型在跨文化场景下的泛化能力不足。
核心思路:论文的核心思路是通过构建一个多文化标注的数据集,来揭示和量化文化差异对仇恨言论标注的影响,并评估现有视觉-语言模型在不同文化背景下的表现。通过分析模型预测与不同文化标注之间的差异,可以发现模型存在的文化偏见。
技术框架:论文主要包含以下几个阶段:1) 数据集构建:收集多语言、多模态的meme数据,并由来自不同文化背景的标注者进行标注。2) 标注协议分析:计算不同文化背景标注者之间的标注一致性,分析文化差异对标注结果的影响。3) 模型评估:在Multi3Hate数据集上评估现有视觉-语言模型的零样本性能,并分析模型预测与不同文化标注之间的差异。
关键创新:论文最重要的创新点在于构建了首个多模态、多语言、多文化标注的仇恨言论数据集Multi3Hate。该数据集的构建考虑了不同文化背景下对仇恨言论的理解差异,为研究视觉-语言模型的文化偏见提供了新的资源。与现有数据集相比,Multi3Hate更关注文化差异对仇恨言论标注的影响。
关键设计:数据集包含300个meme样本,涵盖英语、德语、西班牙语、印地语和普通话五种语言。标注者来自不同国家,代表不同的文化背景。论文采用成对协议(pairwise agreement)来衡量不同文化背景标注者之间的标注一致性。实验中,论文使用了5个大型视觉-语言模型,并在零样本设置下进行评估。模型评估指标包括准确率、精确率、召回率和F1值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同文化背景的标注者对仇恨言论的理解存在显著差异,国家之间的平均成对协议仅为74%。美国和印度之间的标注一致性最低,仅为67%。现有视觉-语言模型在零样本设置下,更倾向于与美国文化背景下的标注结果对齐,表明模型存在文化偏见。即使使用其他文化的主要语言进行提示,模型仍然表现出对美国文化的偏向。
🎯 应用场景
该研究成果可应用于改进多模态仇恨言论检测系统,使其能够更好地适应不同文化背景下的用户需求。通过减少文化偏见,可以提高模型在跨文化场景下的公平性和准确性,从而构建更负责任和包容的AI系统。未来,该研究可以扩展到其他领域,如情感分析和观点挖掘。
📄 摘要(原文)
Warning: this paper contains content that may be offensive or upsetting Hate speech moderation on global platforms poses unique challenges due to the multimodal and multilingual nature of content, along with the varying cultural perceptions. How well do current vision-language models (VLMs) navigate these nuances? To investigate this, we create the first multimodal and multilingual parallel hate speech dataset, annotated by a multicultural set of annotators, called Multi3Hate. It contains 300 parallel meme samples across 5 languages: English, German, Spanish, Hindi, and Mandarin. We demonstrate that cultural background significantly affects multimodal hate speech annotation in our dataset. The average pairwise agreement among countries is just 74%, significantly lower than that of randomly selected annotator groups. Our qualitative analysis indicates that the lowest pairwise label agreement-only 67% between the USA and India-can be attributed to cultural factors. We then conduct experiments with 5 large VLMs in a zero-shot setting, finding that these models align more closely with annotations from the US than with those from other cultures, even when the memes and prompts are presented in the dominant language of the other culture. Code and dataset are available at https://github.com/MinhDucBui/Multi3Hate.