What is Beneath Misogyny: Misogynous Memes Classification and Explanation

作者: Kushal Kanwar, Dushyant Singh Chauhan, Gopendra Vikram Singh, Asif Ekbal

分类: cs.CV

发布日期: 2025-07-30

🔗 代码/项目: GITHUB

💡 一句话要点

提出MM-Misogyny模型，用于检测、分类和解释网络仇恨女性的梗图

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 多模态学习 交叉注意力机制 大型语言模型 梗图分析 自然语言处理 计算机视觉

📋 核心要点

现有方法难以有效检测和解释梗图中隐蔽的仇恨女性内容，因为梗图具有多模态特性和情境依赖性。
MM-Misogyny模型通过交叉注意力融合文本和图像信息，并结合大型语言模型进行解释，从而理解梗图中的仇恨女性内涵。
在WBMS数据集上的实验表明，MM-Misogyny模型在仇恨女性内容检测和分类方面优于现有方法，并能提供细粒度的解释。

📝 摘要（中文）

本研究关注通过看似无害的梗图传播仇恨女性思想的问题。由于梗图的多模态特性（图像和文本）以及在不同社会背景下的细微表现，检测和理解梗图中存在的仇恨女性内容是一项研究挑战。为此，我们提出了一种新颖的多模态方法MM-Misogyny，用于检测、分类和解释梗图中的仇恨女性内容。MM-Misogyny分别处理文本和图像模态，并通过交叉注意力机制将它们统一到多模态上下文中。然后，通过分类器和大型语言模型（LLM）轻松处理生成的多模态上下文，以进行标签、分类和解释。该模型在一个新策划的数据集（What's Beneath Misogynous Stereotyping (WBMS)）上进行评估，该数据集通过从网络空间收集仇恨女性梗图并将其分为厨房、领导、工作和购物四个类别而创建。该模型不仅可以检测和分类仇恨女性内容，还可以深入了解仇恨女性如何在生活领域中运作。结果表明，与现有方法相比，我们的方法具有优越性。代码和数据集可在https://github.com/kushalkanwarNS/WhatisBeneathMisogyny/tree/main 获取。

🔬 方法详解

问题定义：论文旨在解决仇恨女性的梗图识别与解释问题。现有方法难以有效处理梗图的多模态特性和上下文依赖性，导致检测精度不高，且缺乏对仇恨女性内容深层含义的理解。

核心思路：论文的核心思路是利用多模态融合和大型语言模型，充分挖掘梗图中图像和文本之间的关联，并结合常识知识，从而更准确地识别和解释仇恨女性的内容。通过交叉注意力机制，模型可以学习到图像和文本之间的相互依赖关系，从而更好地理解梗图的整体含义。

技术框架：MM-Misogyny模型包含以下主要模块：1) 文本编码器：用于提取梗图中文本信息的特征表示；2) 图像编码器：用于提取梗图中图像信息的特征表示；3) 交叉注意力模块：用于融合文本和图像特征，学习它们之间的相互依赖关系；4) 分类器：用于判断梗图是否包含仇恨女性内容，并进行分类；5) 大型语言模型：用于生成对梗图中仇恨女性内容的解释。

关键创新：该论文的关键创新在于提出了一个多模态融合的框架，通过交叉注意力机制有效地融合了文本和图像信息，并结合大型语言模型进行解释。与现有方法相比，该方法能够更准确地识别和解释梗图中隐蔽的仇恨女性内容。

关键设计：交叉注意力模块的设计是关键。具体来说，文本和图像特征首先通过线性变换映射到相同的维度空间，然后计算它们之间的注意力权重。注意力权重用于加权图像特征，从而得到融合了文本信息的图像表示。最终，融合后的图像表示和原始文本表示被拼接在一起，输入到分类器和大型语言模型中。

🖼️ 关键图片

📊 实验亮点

MM-Misogyny模型在自建的WBMS数据集上进行了评估，实验结果表明，该模型在仇恨女性内容检测和分类方面优于现有方法。具体来说，MM-Misogyny模型在准确率、召回率和F1值等指标上均取得了显著提升。此外，该模型还能够生成对梗图中仇恨女性内容的合理解释，为理解网络仇恨言论提供了新的视角。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核，自动识别和过滤仇恨女性的梗图，从而营造更健康的网络环境。此外，该模型还可以用于教育领域，帮助人们更好地理解和识别网络仇恨言论，提高媒介素养。未来，该技术可以扩展到检测其他类型的网络有害内容，如种族歧视、宗教歧视等。

📄 摘要（原文）

Memes are popular in the modern world and are distributed primarily for entertainment. However, harmful ideologies such as misogyny can be propagated through innocent-looking memes. The detection and understanding of why a meme is misogynous is a research challenge due to its multimodal nature (image and text) and its nuanced manifestations across different societal contexts. We introduce a novel multimodal approach, \textit{namely}, \textit{\textbf{MM-Misogyny}} to detect, categorize, and explain misogynistic content in memes. \textit{\textbf{MM-Misogyny}} processes text and image modalities separately and unifies them into a multimodal context through a cross-attention mechanism. The resulting multimodal context is then easily processed for labeling, categorization, and explanation via a classifier and Large Language Model (LLM). The evaluation of the proposed model is performed on a newly curated dataset (\textit{\textbf{W}hat's \textbf{B}eneath \textbf{M}isogynous \textbf{S}tereotyping (WBMS)}) created by collecting misogynous memes from cyberspace and categorizing them into four categories, \textit{namely}, Kitchen, Leadership, Working, and Shopping. The model not only detects and classifies misogyny, but also provides a granular understanding of how misogyny operates in domains of life. The results demonstrate the superiority of our approach compared to existing methods. The code and dataset are available at \href{https://github.com/kushalkanwarNS/WhatisBeneathMisogyny/tree/main}{https://github.com/Misogyny}.

What is Beneath Misogyny: Misogynous Memes Classification and Explanation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理