MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos
作者: Laura De Grazia, Pol Pastells, Mauro Vázquez Chas, Desmond Elliott, Danae Sánchez Villegas, Mireia Farrús, Mariona Taulé
分类: cs.CL, cs.AI
发布日期: 2025-04-15 (更新: 2025-08-21)
备注: COLM 2025 camera-ready version: expanded Section 4.3 with an additional experiment using an extended definition-based prompt (including a definition of sexist content), and applied minor corrections
💡 一句话要点
提出MuSeD多模态西班牙语数据集,用于社交媒体视频中的性别歧视检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 性别歧视检测 多模态学习 社交媒体视频 西班牙语 数据集 自然语言处理 计算机视觉
📋 核心要点
- 社交媒体视频中性别歧视内容日益增多,现有方法难以有效整合文本、音频和视觉信息进行准确检测。
- 提出MuSeD数据集和注释框架,旨在分析不同模态对性别歧视内容分类的贡献,并促进多模态性别歧视检测研究。
- 实验表明,视觉信息在性别歧视内容识别中至关重要,但模型在隐性性别歧视检测方面仍面临挑战。
📝 摘要(中文)
性别歧视通常被定义为基于性别或性别的偏见和歧视,影响社会的各个领域,从社会机构到人际关系和个人行为。社交媒体平台通过不仅通过文本,还通过多种模态传递歧视性内容,从而扩大了性别歧视的影响,突显了对在线性别歧视进行多模态分析的关键需求。随着用户分享短视频的社交媒体平台的兴起,性别歧视越来越多地通过视频内容传播。自动检测视频中的性别歧视是一项具有挑战性的任务,因为它需要分析口头、音频和视觉元素的组合来识别性别歧视内容。在这项研究中,(1) 我们推出了 MuSeD,这是一个新的多模态西班牙语性别歧视检测数据集,包含从 TikTok 和 BitChute 提取的约 11 小时的视频;(2) 我们提出了一个创新的注释框架,用于分析文本、声音和视觉模态对内容分类为性别歧视或非性别歧视的贡献;(3) 我们评估了一系列大型语言模型 (LLM) 和多模态 LLM 在性别歧视检测任务中的表现。我们发现视觉信息在人类和模型标记性别歧视内容方面起着关键作用。模型可以有效地检测显性性别歧视;然而,它们在隐性案例(如刻板印象)中表现不佳,注释者在这些案例中也表现出较低的一致性。这突显了任务的内在难度,因为识别隐性性别歧视取决于社会和文化背景。
🔬 方法详解
问题定义:论文旨在解决社交媒体视频中性别歧视内容自动检测的问题。现有方法通常侧重于文本分析,忽略了视频中音频和视觉信息的重要性,导致检测精度不高,尤其是在隐性性别歧视的识别上。此外,缺乏高质量的多模态西班牙语数据集也限制了相关研究的进展。
核心思路:论文的核心思路是构建一个多模态数据集,并设计一个注释框架,以分析文本、音频和视觉模态对性别歧视内容分类的贡献。通过多模态信息的融合,可以更全面地理解视频内容,从而提高性别歧视检测的准确性。同时,论文还评估了现有的大型语言模型和多模态语言模型在性别歧视检测任务上的表现,为未来的研究提供了基准。
技术框架:该研究的技术框架主要包括三个部分:数据集构建、注释框架设计和模型评估。首先,从TikTok和BitChute等社交媒体平台收集视频数据,并进行清洗和筛选。然后,设计一个创新的注释框架,用于分析文本、声音和视觉模态对内容分类为性别歧视或非性别歧视的贡献。最后,使用一系列大型语言模型 (LLM) 和多模态 LLM 在性别歧视检测任务上进行评估。
关键创新:该论文的关键创新在于:(1) 构建了一个新的多模态西班牙语性别歧视检测数据集MuSeD,填补了该领域的数据空白;(2) 提出了一个创新的注释框架,用于分析不同模态对性别歧视内容分类的贡献,为多模态信息融合提供了指导;(3) 评估了现有的大型语言模型和多模态语言模型在性别歧视检测任务上的表现,为未来的研究提供了基准。
关键设计:MuSeD数据集包含约11小时的视频,来源于TikTok和BitChute。注释框架的设计考虑了文本、音频和视觉模态的特点,并采用了多层次的标注体系。在模型评估方面,论文选择了多种具有代表性的大型语言模型和多模态语言模型,并采用了常用的评估指标,如准确率、召回率和F1值。具体的参数设置和网络结构信息未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,视觉信息在性别歧视内容识别中起着关键作用。模型在检测显性性别歧视方面表现良好,但在隐性性别歧视检测方面仍面临挑战,这与人工标注者在隐性案例中一致性较低的情况相符。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核,自动识别和过滤性别歧视内容,从而营造更健康的网络环境。此外,该数据集和注释框架可用于训练更强大的多模态性别歧视检测模型,为相关研究提供支持。未来,该研究可扩展到其他语言和文化背景,以应对全球范围内的性别歧视问题。
📄 摘要(原文)
Sexism is generally defined as prejudice and discrimination based on sex or gender, affecting every sector of society, from social institutions to relationships and individual behavior. Social media platforms amplify the impact of sexism by conveying discriminatory content not only through text but also across multiple modalities, highlighting the critical need for a multimodal approach to the analysis of sexism online. With the rise of social media platforms where users share short videos, sexism is increasingly spreading through video content. Automatically detecting sexism in videos is a challenging task, as it requires analyzing the combination of verbal, audio, and visual elements to identify sexist content. In this study, (1) we introduce MuSeD, a new Multimodal Spanish dataset for Sexism Detection consisting of $\approx$ 11 hours of videos extracted from TikTok and BitChute; (2) we propose an innovative annotation framework for analyzing the contributions of textual, vocal, and visual modalities to the classification of content as either sexist or non-sexist; and (3) we evaluate a range of large language models (LLMs) and multimodal LLMs on the task of sexism detection. We find that visual information plays a key role in labeling sexist content for both humans and models. Models effectively detect explicit sexism; however, they struggle with implicit cases, such as stereotypes, instances where annotators also show low agreement. This highlights the inherent difficulty of the task, as identifying implicit sexism depends on the social and cultural context.