Multimodal Sexism Identification and Characterization using Large Language Models and Gradient Boosting

📄 arXiv: 2606.05997v1 📥 PDF

作者: Kyriakos Chaviaras, Maria Lymperaiou, Athanasios Voulodimos

分类: cs.CV

发布日期: 2026-06-04


💡 一句话要点

提出多模态性别歧视识别与表征方法以解决社交媒体内容分析问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态识别 性别歧视 社交媒体分析 梯度提升 特征工程 短视频理解 表情包识别

📋 核心要点

  1. 现有方法在多模态性别歧视识别中面临特征选择和噪声影响等挑战,导致识别效果不佳。
  2. 论文提出了一种基于梯度提升回归模型的特征工程后融合管道,结合多种模态特征进行性别歧视识别。
  3. 实验结果显示,针对性的语义特征工程显著提升了表情包的识别性能,但视频的表现对特征维度敏感,需进一步研究。

📝 摘要(中文)

本文介绍了AILS-NTUA在CLEF EXIST 2026实验室的提交,针对表情包和短视频中的多模态性别歧视识别与表征进行研究。系统采用基于梯度提升回归模型的特征工程后融合管道,并进行了分层后处理。对于表情包,结合视觉、文本、人口统计、生物特征及大型语言模型(LLM)衍生的语义指标,以捕捉刻板印象、物化、讽刺和厌女等高层次线索。对于视频,研究了特征选择、基于帧的视觉表示、光学字符识别(OCR)文本特征、声学描述符和传感器衍生元数据的影响。开发结果表明,针对性的LLM衍生语义线索能提升表情包的性别歧视识别性能,而视频性能对特征维度和跨模态噪声高度敏感。

🔬 方法详解

问题定义:本文旨在解决社交媒体内容(如表情包和短视频)中的多模态性别歧视识别问题。现有方法在特征选择和噪声处理上存在不足,导致识别效果不理想。

核心思路:论文提出了一种基于梯度提升回归模型的特征工程后融合管道,旨在通过结合多模态特征(视觉、文本等)来提高性别歧视识别的准确性。

技术框架:整体架构包括特征提取、特征选择、模型训练和后处理四个主要模块。特征提取阶段从不同模态中提取相关特征,特征选择阶段则优化特征维度,模型训练阶段使用梯度提升回归模型进行训练,最后通过后处理提升结果的准确性。

关键创新:最重要的创新在于将多种模态特征(如LLM衍生的语义特征)进行有效融合,特别是在表情包的性别歧视识别中,显著提高了识别性能。

关键设计:在特征选择中,采用了紧凑的特征选择策略,并对模型的损失函数进行了优化,以适应多模态数据的特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,针对性的LLM衍生语义特征在表情包性别歧视识别中显著提升了性能,而视频性能对特征维度的敏感性表明,未过滤的特征表示在未见数据上具有更好的泛化能力。具体性能数据未提供,需进一步验证。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容监测、在线社区的性别歧视识别和内容审核等。通过提高对性别歧视内容的识别能力,能够有效改善网络环境,促进性别平等。未来,该方法也可扩展至其他类型的社交媒体内容分析,具有广泛的实际价值。

📄 摘要(原文)

We present the AILS-NTUA submission to the EXIST 2026 Lab at CLEF, addressing multimodal sexism identification and characterization in memes (Task 2) and short-form videos (Task 3). Our system follows a feature-engineered late-fusion pipeline built around gradient-boosted regression models and hierarchical post-processing. For memes, we combine visual, textual, demographic, biometric, and LLM-derived semantic indicators designed to capture high-level cues such as stereotyping, objectification, irony, and misogyny. For videos, we investigate the effect of feature selection, frame-based visual representations, OCR-based textual features, acoustic descriptors, and sensor-derived metadata. Development results show that focused LLM-derived semantic cues improve meme sexism identification, while video performance is highly sensitive to feature dimensionality and cross-modal noise. For videos, development results favor compact feature selection, but official test results show that this conclusion does not fully transfer to unseen data, where the unfiltered representation generalizes better. Overall, our findings highlight the usefulness of targeted semantic feature engineering for static memes and the need for more robust temporal modeling in noisy short-form video settings.