An Under-Explored Application for Explainable Multimodal Misogyny Detection in code-mixed Hindi-English

📄 arXiv: 2601.08457v1 📥 PDF

作者: Sargam Yadav, Abhishek Kaushik, Kevin Mc Daid

分类: cs.AI, cs.CL

发布日期: 2026-01-13


💡 一句话要点

提出一种可解释的多模态仇恨言论检测Web应用,用于印地语-英语混合语境

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 厌女症检测 多模态学习 可解释人工智能 印地语-英语混合 Transformer模型 Web应用

📋 核心要点

  1. 现有仇恨言论检测模型在低资源混合语境语言中表现不足,且缺乏决策透明度,难以信任。
  2. 提出一种多模态可解释的Web应用,利用Transformer模型处理印地语-英语混合文本和表情包,检测厌女症。
  3. 系统集成了XAI技术(SHAP和LIME)提供特征重要性,并通过用户体验问卷评估了系统的可用性。

📝 摘要(中文)

数字平台的用户群体不断扩大,已成为通信、商业和连接的中心。然而,这也导致了仇恨言论和厌女症的传播。人工智能模型已成为对抗在线仇恨言论的有效解决方案,但在低资源和混合语境语言中的应用仍有待探索,并且缺乏可解释性。可解释人工智能(XAI)可以增强深度学习模型决策的透明度,这对于仇恨言论检测等敏感领域至关重要。本文提出了一个多模态且可解释的Web应用程序,用于检测印地语-英语混合语境中的文本和表情包中的厌女症。该系统利用最先进的基于Transformer的模型,支持多语言和多模态设置。对于基于文本的厌女症识别,该系统在约4,193条评论的数据集上利用了XLM-RoBERTa(XLM-R)和多语言Bidirectional Encoder Representations from Transformers(mBERT)。对于来自表情包的多模态厌女症识别,该系统利用了在约4,218个表情包的数据集上训练的mBERT + EfficientNet和mBERT + ResNET。它还使用包括Shapley Additive Values(SHAP)和Local Interpretable Model Agnostic Explanations(LIME)在内的可解释性技术提供特征重要性评分。该应用程序旨在作为研究人员和内容审核员的工具,以促进该领域的进一步研究,打击基于性别的数字暴力,并确保安全的数字空间。该系统已通过人工评估员进行评估,他们提供了对聊天机器人可用性问卷(CUQ)和用户体验问卷(UEQ)的回复,以确定整体可用性。

🔬 方法详解

问题定义:该论文旨在解决在印地语-英语混合语境下,自动检测文本和表情包中存在的厌女症内容的问题。现有方法在处理这种低资源、混合语言环境时效果不佳,并且缺乏可解释性,难以理解模型做出判断的原因。这使得内容审核员难以信任和使用这些模型。

核心思路:论文的核心思路是利用多模态学习和可解释人工智能(XAI)技术,构建一个能够有效检测混合语言厌女症内容,并提供决策解释的Web应用程序。通过结合文本和图像信息,并使用SHAP和LIME等方法,提高模型的准确性和透明度。

技术框架:该系统包含两个主要模块:文本厌女症检测和多模态厌女症检测。文本模块使用XLM-RoBERTa (XLM-R)和mBERT模型,在包含约4,193条评论的数据集上进行训练。多模态模块使用mBERT分别与EfficientNet和ResNet结合,在包含约4,218个表情包的数据集上进行训练。此外,系统还集成了SHAP和LIME等XAI技术,用于提供特征重要性评分。整个系统以Web应用程序的形式呈现,方便用户使用。

关键创新:该论文的关键创新在于将多模态学习和可解释人工智能技术应用于印地语-英语混合语境下的厌女症检测。以往的研究较少关注这种低资源、混合语言环境,并且缺乏对模型决策过程的解释。该论文通过结合文本和图像信息,并使用XAI技术,提高了模型的准确性和可解释性。

关键设计:在文本模块中,使用了预训练的多语言Transformer模型XLM-R和mBERT,并针对特定任务进行了微调。在多模态模块中,使用了mBERT提取文本特征,EfficientNet和ResNet提取图像特征,然后将两种特征进行融合。SHAP和LIME等XAI技术被用于计算每个特征对模型预测结果的贡献度,从而提供可解释性。

📊 实验亮点

该系统通过人工评估员使用CUQ和UEQ问卷进行评估,结果表明该系统具有良好的可用性。此外,系统集成了SHAP和LIME等可解释性技术,能够提供特征重要性评分,帮助用户理解模型的决策过程。

🎯 应用场景

该研究成果可应用于在线社交平台的内容审核,帮助自动识别和过滤仇恨言论和厌女症内容,从而营造更健康的网络环境。该Web应用可供研究人员和内容审核员使用,促进相关领域的研究,并为打击基于性别的数字暴力提供工具。

📄 摘要(原文)

Digital platforms have an ever-expanding user base, and act as a hub for communication, business, and connectivity. However, this has also allowed for the spread of hate speech and misogyny. Artificial intelligence models have emerged as an effective solution for countering online hate speech but are under explored for low resource and code-mixed languages and suffer from a lack of interpretability. Explainable Artificial Intelligence (XAI) can enhance transparency in the decisions of deep learning models, which is crucial for a sensitive domain such as hate speech detection. In this paper, we present a multi-modal and explainable web application for detecting misogyny in text and memes in code-mixed Hindi and English. The system leverages state-of-the-art transformer-based models that support multilingual and multimodal settings. For text-based misogyny identification, the system utilizes XLM-RoBERTa (XLM-R) and multilingual Bidirectional Encoder Representations from Transformers (mBERT) on a dataset of approximately 4,193 comments. For multimodal misogyny identification from memes, the system utilizes mBERT + EfficientNet, and mBERT + ResNET trained on a dataset of approximately 4,218 memes. It also provides feature importance scores using explainability techniques including Shapley Additive Values (SHAP) and Local Interpretable Model Agnostic Explanations (LIME). The application aims to serve as a tool for both researchers and content moderators, to promote further research in the field, combat gender based digital violence, and ensure a safe digital space. The system has been evaluated using human evaluators who provided their responses on Chatbot Usability Questionnaire (CUQ) and User Experience Questionnaire (UEQ) to determine overall usability.