FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection
作者: Paramananda Bhaskar, Naquee Rizwan, Daksh Jogchand, Saurabh Kumar Pandey, Animesh Mukherjee
分类: cs.CL, cs.AI, cs.CV, cs.MM
发布日期: 2026-05-29
💡 一句话要点
提出FBHM基准测试与LSV引导方法,提升VLM在仇恨模因检测中的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 仇恨模因检测 视觉-语言模型 基准测试 因果干预 泛化能力
📋 核心要点
- 现有仇恨模因检测基准存在结构性缺陷,难以评估模型对修辞仇恨机制的理解和泛化能力。
- 提出FBHM基准,通过正交的修辞功能和目标社区构建,系统性地评估VLM的鲁棒性。
- 引入LSV引导方法,利用少量样本进行因果干预,显著提升VLM在FBHM上的性能,优于其他微调策略。
📝 摘要(中文)
仇恨模因检测对视觉-语言模型(VLM)来说仍然是一个巨大的挑战,因为现有的基准在结构上是观察性的,会将修辞仇恨机制与目标社区特征混淆,并阻碍模型漏洞的因果评估。为了解决这个问题,我们引入了FBHM,这是一个系统策划的、基于功能的仇恨模因基准,它沿着两个正交轴构建:25种不同的修辞功能和10个目标社区(总共5,000个模因)。对最先进的VLM进行基准测试显示出严重的泛化差距:在标准数据集上高度准确的模型在FBHM上灾难性地下降到接近随机的性能,证明它们利用了数据集特定的启发式方法,而不是强大的多模态推理。为了有效地缩小这一差距,我们提出了LSV(可学习的引导向量),这是一种超低数据机制策略,它在少至500个引导样本(50个独特的基模因)上应用因果干预目标,将FBHM性能提高约30个Macro-F1点,同时优于上下文学习和PEFT,且不降低源域性能。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型(VLM)在仇恨模因检测任务中泛化能力不足的问题。现有基准数据集存在偏差,模型容易学习到数据集特定的启发式规则,而非真正的多模态推理能力。这导致模型在面对新的、具有挑战性的仇恨模因时,性能急剧下降。现有方法的痛点在于无法有效评估和提升模型对仇恨模因中复杂修辞手法的理解和泛化能力。
核心思路:论文的核心思路是构建一个更具挑战性和代表性的基准数据集FBHM,并提出一种高效的引导方法LSV,以提升VLM在FBHM上的性能。FBHM的设计旨在消除数据集偏差,迫使模型学习更通用的仇恨检测规则。LSV则通过因果干预的方式,引导模型关注关键的修辞功能,从而提高其泛化能力。这样设计的目的是使模型能够真正理解仇恨模因背后的含义,而不是简单地依赖数据集的统计规律。
技术框架:整体框架包含两个主要部分:FBHM基准数据集的构建和LSV引导方法的应用。FBHM数据集的构建涉及定义25种修辞功能和10个目标社区,并生成相应的仇恨模因。LSV引导方法则是在预训练的VLM基础上,通过学习可学习的引导向量,对模型的表示空间进行微调。具体流程是:首先,使用少量样本(500个)构建引导数据集;然后,利用因果干预目标,训练引导向量;最后,将训练好的引导向量应用于VLM,提升其在FBHM上的性能。
关键创新:论文最重要的技术创新点在于提出了FBHM基准数据集和LSV引导方法。FBHM通过系统性的设计,解决了现有基准数据集的偏差问题,为VLM的仇恨模因检测能力评估提供了一个更可靠的平台。LSV则是一种超低数据机制的引导方法,它利用少量样本即可显著提升VLM的性能,且优于传统的微调方法。与现有方法的本质区别在于,FBHM关注数据集的质量,LSV关注模型的引导方式,两者结合,共同提升了VLM的泛化能力。
关键设计:FBHM的关键设计在于其正交的修辞功能和目标社区的划分,这保证了数据集的多样性和代表性。LSV的关键设计在于其因果干预目标,该目标旨在引导模型关注关键的修辞功能,从而提高其泛化能力。具体来说,LSV通过学习可学习的引导向量,对模型的表示空间进行微调,使得模型能够更好地识别和理解仇恨模因中的修辞手法。损失函数的设计也至关重要,它需要能够有效地引导模型学习到有用的引导向量,并避免过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的VLM在FBHM基准上表现出严重的泛化差距,性能接近随机水平。而通过LSV引导方法,VLM在FBHM上的Macro-F1指标提升了约30个百分点,显著优于上下文学习和PEFT等微调方法,同时保持了在源域上的性能。这证明了FBHM基准的有效性和LSV引导方法的优越性。
🎯 应用场景
该研究成果可应用于在线内容审核、社交媒体平台管理、以及仇恨言论检测等领域。通过提升VLM在仇恨模因检测方面的准确性和泛化能力,有助于更有效地识别和过滤网络上的有害信息,从而营造更健康的网络环境。未来,该方法可以扩展到其他类型的恶意内容检测,例如虚假新闻、网络欺凌等。
📄 摘要(原文)
Hateful meme detection remains a formidable challenge for vision-language models, as existing benchmarks are structurally observational - confounding rhetorical hate mechanisms with target community features and preventing causal evaluation of model vulnerabilities. To address this, we introduce FBHM, a systematically curated benchmark of Functionality Based Hateful Memes constructed along two orthogonal axes: 25 distinct rhetorical functionalities and 10 target communities (5,000 memes total). Benchmarking state-of-the-art VLMs reveals a severe generalization gap: models highly accurate on standard datasets catastrophically drop to near-random performance on FBHM, proving they exploit dataset-specific heuristics rather than robust multimodal reasoning. To efficiently close this gap, we propose LSV (learnable steering vectors), an ultra-low data regime strategy that applies a causal intervention objective on as few as 500 steering samples (50 unique base memes), boosting FBHM performance by ~30 Macro-F1 points while outperforming in-context learning and PEFT without degrading source-domain performance.