GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

📄 arXiv: 2602.20818v1 📥 PDF

作者: Yingying Guo, Ke Zhang, Zirong Zeng

分类: cs.CV

发布日期: 2026-02-24

备注: Preprint


💡 一句话要点

提出GatedCLIP,通过门控多模态融合提升Hateful Memes检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Hateful Memes检测 多模态融合 门控机制 对比学习 视觉-语言模型

📋 核心要点

  1. Hateful Memes检测面临图像和文本复杂交互带来的挑战,现有方法难以有效捕捉恶意信息。
  2. GatedCLIP通过可学习投影头、门控融合机制和对比学习目标,增强CLIP的多模态特征学习能力。
  3. 实验结果表明,GatedCLIP在Hateful Memes数据集上显著优于CLIP基线,且参数量较小。

📝 摘要(中文)

本文提出了一种名为GatedCLIP的视觉-语言模型,旨在增强CLIP在检测Hateful Memes方面的多模态能力。该模型通过专门的架构改进,针对Hateful Memes检测进行了优化。GatedCLIP引入了可学习的投影头,将CLIP嵌入映射到任务优化的语义空间;采用动态门控融合机制,自适应地加权视觉和文本特征;并使用对比学习目标,保持跨模态的语义对齐。在Hateful Memes数据集上的实验表明,GatedCLIP实现了0.66的AUROC,显著优于CLIP基线(AUROC 0.49),同时仅需350K可训练参数,保持了计算效率。

🔬 方法详解

问题定义:Hateful Memes检测任务旨在识别包含仇恨言论的模因,这些模因通常通过图像和文本的微妙组合来传递有害信息。现有的方法,例如直接使用预训练的CLIP模型,难以充分理解图像和文本之间的复杂关系,导致检测精度较低。

核心思路:GatedCLIP的核心思路是通过引入可学习的模块,对CLIP的视觉和文本特征进行任务特定的优化,并使用门控机制动态地融合这些特征。这种方法旨在更好地捕捉图像和文本之间的语义关联,从而提高Hateful Memes的检测性能。

技术框架:GatedCLIP的整体架构包括以下几个主要模块:1) CLIP编码器:使用预训练的CLIP模型提取图像和文本的特征。2) 可学习的投影头:将CLIP的视觉和文本嵌入映射到任务优化的语义空间。3) 门控融合机制:根据图像和文本特征的相对重要性,自适应地加权融合它们。4) 分类器:使用融合后的特征进行Hateful Memes的分类。5) 对比学习目标:用于保持跨模态的语义对齐。

关键创新:GatedCLIP的关键创新在于其动态门控融合机制。传统的多模态融合方法通常采用静态的加权方式,无法根据不同的输入自适应地调整视觉和文本特征的权重。GatedCLIP的门控机制可以根据图像和文本特征的上下文信息,动态地学习每个模态的权重,从而更有效地融合多模态信息。

关键设计:GatedCLIP的关键设计包括:1) 可学习的投影头:使用多层感知机(MLP)将CLIP嵌入映射到任务优化的语义空间。2) 门控融合机制:使用sigmoid函数生成门控权重,根据图像和文本特征的上下文信息动态调整权重。3) 对比学习目标:使用InfoNCE损失函数,鼓励相似的图像和文本嵌入在语义空间中更接近,不相似的嵌入更远离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GatedCLIP在Hateful Memes数据集上取得了显著的性能提升,AUROC达到0.66,相比CLIP基线(AUROC 0.49)提升了17%。同时,GatedCLIP仅需350K可训练参数,计算效率高,易于部署和应用。实验结果表明,GatedCLIP能够有效地捕捉图像和文本之间的复杂关系,提高Hateful Memes的检测精度。

🎯 应用场景

GatedCLIP可应用于社交媒体平台的内容审核,自动检测和过滤Hateful Memes,减少有害信息的传播。该研究对于构建更安全、更健康的在线环境具有重要意义,并可扩展到其他多模态内容理解任务,如虚假新闻检测、恶意广告识别等。

📄 摘要(原文)

Detecting hateful content in multimodal memes presents unique challenges, as harmful messages often emerge from the complex interplay between benign images and text. We propose GatedCLIP, a Vision-Language model that enhances CLIP's multimodal capabilities with specialized architectural improvements for hateful memes detection. Our approach introduces learned projection heads that map CLIP embeddings to a task-optimized semantic space, a dynamic gated fusion mechanism that adaptively weights visual and textual features, and a contrastive learning objective that maintains cross-modal semantic alignment. Experiments on the Hateful Memes dataset demonstrate that GatedCLIP achieves an AUROC of 0.66, substantially outperforming the CLIP baseline (AUROC 0.49) while maintaining computational efficiency with only 350K trainable parameters.