Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection
作者: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne
分类: cs.CL, cs.AI, cs.CV, cs.LG
发布日期: 2025-02-18 (更新: 2025-09-16)
备注: EMNLP 2025 Main (Oral)
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种鲁棒的大型多模态模型自适应框架,用于检索增强的仇恨模因检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 仇恨模因检测 大型多模态模型 鲁棒自适应 检索增强 对抗攻击 可解释性 领域泛化
📋 核心要点
- 现有大型多模态模型在仇恨模因检测中存在领域泛化能力不足和易受对抗攻击等问题。
- 论文提出一种鲁棒自适应框架,旨在提升模型在领域内外的准确性和鲁棒性,同时保留其通用视觉-语言能力。
- 实验结果表明,该方法在多个数据集上取得了state-of-the-art的性能,并能生成更高质量的解释性理由。
📝 摘要(中文)
仇恨模因已成为互联网上的一个重要问题,需要强大的自动化检测系统。大型多模态模型(LMMs)在仇恨模因检测中显示出潜力,但面临着次优性能和有限的领域外泛化能力等挑战。最近的研究进一步揭示了监督微调(SFT)和上下文学习应用于此设置中的LMM时的局限性。为了解决这些问题,我们提出了一种用于仇恨模因检测的鲁棒自适应框架,该框架增强了领域内准确性和跨领域泛化能力,同时保留了LMM的通用视觉-语言能力。分析表明,与SFT模型相比,我们的方法在对抗性攻击下实现了更高的鲁棒性。在六个模因分类数据集上的实验表明,我们的方法实现了最先进的性能,优于更大的智能体系统。此外,与标准SFT相比,我们的方法生成了更高质量的理由来解释仇恨内容,从而增强了模型的可解释性。
🔬 方法详解
问题定义:论文旨在解决大型多模态模型(LMMs)在仇恨模因检测任务中存在的领域泛化能力差和鲁棒性不足的问题。现有的监督微调(SFT)和上下文学习方法在此任务中表现出局限性,无法充分利用LMM的潜力。
核心思路:论文的核心思路是通过一种鲁棒的自适应框架,在保留LMM通用视觉-语言能力的同时,提升其在特定任务(仇恨模因检测)上的性能和鲁棒性。该框架旨在更好地适应目标领域的数据分布,并提高模型对对抗性攻击的抵抗能力。
技术框架:论文提出的框架包含以下主要模块/阶段:首先,利用检索增强技术,从外部知识库中检索与输入模因相关的上下文信息。然后,将检索到的信息与模因的图像和文本进行融合,输入到LMM中进行分析。最后,通过特定的损失函数对LMM进行微调,使其更好地适应仇恨模因检测任务。
关键创新:该方法最重要的技术创新点在于其鲁棒的自适应框架,该框架能够有效地提升LMM在仇恨模因检测任务中的性能和鲁棒性,同时保留其通用视觉-语言能力。与传统的SFT方法相比,该框架能够更好地适应目标领域的数据分布,并提高模型对对抗性攻击的抵抗能力。此外,该方法还能够生成更高质量的解释性理由,增强模型的可解释性。
关键设计:论文中可能包含的关键设计包括:用于检索增强的知识库构建方法、图像和文本信息的融合策略、用于微调LMM的特定损失函数设计(例如,对抗损失、对比损失等),以及用于生成解释性理由的机制。具体的参数设置和网络结构等技术细节需要在论文原文中查找。
🖼️ 关键图片
📊 实验亮点
该方法在六个模因分类数据集上取得了state-of-the-art的性能,超过了现有的SFT模型和更大的智能体系统。此外,该方法在对抗性攻击下表现出更强的鲁棒性,并且能够生成更高质量的解释性理由,提升了模型的可解释性。具体的性能提升幅度需要在论文原文中查找。
🎯 应用场景
该研究成果可应用于在线社交媒体平台的内容审核,自动检测和过滤仇恨模因,从而维护健康的在线环境。此外,该方法也可推广到其他多模态内容理解任务,例如虚假信息检测、网络欺凌识别等,具有广泛的应用前景。
📄 摘要(原文)
Hateful memes have become a significant concern on the Internet, necessitating robust automated detection systems. While Large Multimodal Models (LMMs) have shown promise in hateful meme detection, they face notable challenges like sub-optimal performance and limited out-of-domain generalization capabilities. Recent studies further reveal the limitations of both supervised fine-tuning (SFT) and in-context learning when applied to LMMs in this setting. To address these issues, we propose a robust adaptation framework for hateful meme detection that enhances in-domain accuracy and cross-domain generalization while preserving the general vision-language capabilities of LMMs. Analysis reveals that our approach achieves improved robustness under adversarial attacks compared to SFT models. Experiments on six meme classification datasets show that our approach achieves state-of-the-art performance, outperforming larger agentic systems. Moreover, our method generates higher-quality rationales for explaining hateful content compared to standard SFT, enhancing model interpretability. Code available at https://github.com/JingbiaoMei/RGCL