Rainbow Noise: Stress-Testing Multimodal Harmful-Meme Detectors on LGBTQ Content
作者: Ran Tong, Songtao Wei, Jiaqi Liu, Lanruo Wang
分类: cs.CY, cs.AI, cs.CV
发布日期: 2025-07-24 (更新: 2025-12-02)
备注: 14 pages, 1 figure
💡 一句话要点
提出针对 LGBTQ 内容的恶意 Meme 检测鲁棒性评测基准与文本去噪适配器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 恶意 Meme 检测 鲁棒性评估 对抗攻击 文本去噪 LGBTQ 内容安全 深度学习 文本适配器
📋 核心要点
- 现有恶意 Meme 检测器在处理针对 LGBTQ+ 群体的、经过对抗攻击的 Meme 时表现不佳,缺乏针对性评估。
- 提出一种新的鲁棒性评测基准,结合多种文本和图像攻击,以评估多模态 Meme 检测器在对抗性扰动下的性能。
- 引入轻量级文本去噪适配器 (TDA) 提升 MemeBLIP2 的鲁棒性,实验证明 TDA 能有效提升模型在对抗攻击下的性能。
📝 摘要(中文)
针对 LGBTQ+ 群体的恶意 Meme 常常通过修改文本、图像或两者来逃避检测。本文构建了首个针对此场景的鲁棒性评测基准,将四种真实的文本攻击与三种典型的图像损坏相结合,并在 PrideMM 数据集上测试所有组合。以两个最先进的检测器 MemeCLIP 和 MemeBLIP2 作为案例研究,并引入了一个轻量级的文本去噪适配器 (TDA) 来增强后者的鲁棒性。结果表明,MemeCLIP 的性能下降较为平缓,而 MemeBLIP2 对破坏其语言处理的文本编辑特别敏感。然而,添加 TDA 不仅弥补了这一弱点,还使 MemeBLIP2 成为整体上最鲁棒的模型。消融实验表明,所有系统都严重依赖文本,但架构选择和预训练数据对鲁棒性有显著影响。该基准揭示了当前多模态安全模型的薄弱之处,并证明了像 TDA 这样有针对性的轻量级模块为构建更强大的防御提供了有效途径。
🔬 方法详解
问题定义:论文旨在解决多模态恶意 Meme 检测器在面对针对 LGBTQ+ 群体的、经过对抗攻击的 Meme 时鲁棒性不足的问题。现有方法容易被简单的文本或图像扰动所欺骗,缺乏对此类对抗性攻击的有效防御机制。现有方法没有针对 LGBTQ+ 内容的恶意 Meme 检测鲁棒性评测基准。
核心思路:论文的核心思路是通过构建一个包含多种文本和图像攻击的鲁棒性评测基准,来系统性地评估现有 Meme 检测器的弱点。同时,通过引入一个轻量级的文本去噪适配器 (TDA),来增强模型对文本扰动的鲁棒性。这种方法旨在揭示现有模型的脆弱性,并提供一种有效的防御策略。
技术框架:整体框架包括三个主要部分:1) 构建包含多种文本和图像攻击的 PrideMM 数据集;2) 使用 MemeCLIP 和 MemeBLIP2 作为基线模型进行评估;3) 引入文本去噪适配器 (TDA) 来增强 MemeBLIP2 的鲁棒性。TDA 被添加到 MemeBLIP2 的文本编码器中,用于去除文本中的噪声。
关键创新:论文的关键创新在于:1) 构建了首个针对 LGBTQ+ 内容的恶意 Meme 检测鲁棒性评测基准,为评估模型在对抗性攻击下的性能提供了标准;2) 提出了轻量级的文本去噪适配器 (TDA),能够有效地提升模型对文本扰动的鲁棒性,且计算开销较小。TDA 的设计针对性地解决了 MemeBLIP2 对文本扰动敏感的问题。
关键设计:文本攻击包括四种类型,图像损坏包括三种类型,所有组合都在 PrideMM 数据集上进行测试。TDA 是一个轻量级的模块,被添加到 MemeBLIP2 的文本编码器中。TDA 的具体结构未知,但其目标是去除文本中的噪声,从而提高模型对文本扰动的鲁棒性。损失函数和训练细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MemeCLIP 的性能下降较为平缓,而 MemeBLIP2 对文本扰动特别敏感。添加 TDA 后,MemeBLIP2 的鲁棒性得到显著提升,成为整体上最鲁棒的模型。消融实验表明,所有系统都严重依赖文本,但架构选择和预训练数据对鲁棒性有显著影响。具体性能数据未知。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核,用于提升恶意 Meme 检测系统的鲁棒性,尤其是在处理针对 LGBTQ+ 群体的恶意内容时。通过使用该基准评估和改进现有模型,可以有效减少恶意 Meme 的传播,保护弱势群体免受网络攻击。此外,TDA 的设计思路也可以推广到其他多模态任务中,提升模型对输入噪声的鲁棒性。
📄 摘要(原文)
Hateful memes aimed at LGBTQ\,+ communities often evade detection by tweaking either the caption, the image, or both. We build the first robustness benchmark for this setting, pairing four realistic caption attacks with three canonical image corruptions and testing all combinations on the PrideMM dataset. Two state-of-the-art detectors, MemeCLIP and MemeBLIP2, serve as case studies, and we introduce a lightweight \textbf{Text Denoising Adapter (TDA)} to enhance the latter's resilience. Across the grid, MemeCLIP degrades more gently, while MemeBLIP2 is particularly sensitive to the caption edits that disrupt its language processing. However, the addition of the TDA not only remedies this weakness but makes MemeBLIP2 the most robust model overall. Ablations reveal that all systems lean heavily on text, but architectural choices and pre-training data significantly impact robustness. Our benchmark exposes where current multimodal safety models crack and demonstrates that targeted, lightweight modules like the TDA offer a powerful path towards stronger defences.