TRACE: Textual Relevance Augmentation and Contextual Encoding for Multimodal Hate Detection

📄 arXiv: 2504.17902v2 📥 PDF

作者: Girish A. Koushik, Helen Treharne, Aditya Joshi, Diptesh Kanojia

分类: cs.CV, cs.CL

发布日期: 2025-04-24 (更新: 2025-11-07)

备注: Accepted to Special Track on AI for Social Impact (AISI) at AAAI 2026


💡 一句话要点

提出TRACE框架以解决社交媒体恶意内容检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检测 仇恨言论 社交媒体 视觉上下文 文本编码 模型微调 深度学习

📋 核心要点

  1. 社交媒体表情包的恶意内容检测面临视觉与文本信息交织的挑战,现有方法难以有效处理。
  2. TRACE框架通过视觉基础的上下文增强和新颖的标题评分网络,强调仇恨相关内容并优化文本编码器的微调。
  3. 在Hateful Memes数据集上,TRACE达到了0.807的准确率和0.806的F1-score,显著优于传统微调方法。

📝 摘要(中文)

社交媒体中的表情包因其视觉与文本信息交织而成为恶意内容检测的难点。为应对这一挑战,本文提出了TRACE,一个层次化的多模态框架,利用视觉基础的上下文增强和新颖的标题评分网络来强调与仇恨相关的内容,并对CLIP的文本编码器进行高效的微调。实验表明,选择性微调文本编码器的深层次层次显著提高了性能,TRACE在广泛使用的Hateful Memes数据集上达到了0.807的准确率和0.806的F1-score,表现与更大模型相当,同时保持了效率。此外,该框架在MultiOFF攻击性表情包数据集上也展现了优越的泛化能力,F1-score达到0.673,显示出在不同表情包类别中的鲁棒性。我们公开发布了代码以促进未来的研究。

🔬 方法详解

问题定义:本文旨在解决社交媒体表情包中的恶意内容检测问题。现有方法在处理视觉与文本信息交织的复杂性时,往往表现不佳,导致检测效果不理想。

核心思路:TRACE框架的核心思路是通过视觉基础的上下文增强来提升文本信息的相关性,同时引入标题评分网络以突出仇恨内容,从而提高检测的准确性和鲁棒性。

技术框架:TRACE框架包括三个主要模块:视觉上下文增强模块、标题评分网络和CLIP文本编码器的微调模块。视觉上下文增强模块负责提取和增强图像中的关键信息,标题评分网络则对文本内容进行评分,最后通过微调CLIP的文本编码器来优化整体性能。

关键创新:TRACE的关键创新在于选择性微调文本编码器的深层次层次,这一方法显著提升了模型的性能,与传统的投影层微调方法相比,效果更为显著。

关键设计:在设计上,TRACE采用了参数高效的微调策略,结合了损失函数的优化与网络结构的调整,使得模型在保持高效性的同时,能够达到与更大模型相当的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRACE框架在Hateful Memes数据集上达到了0.807的准确率和0.806的F1-score,表现与更大模型相当,同时在MultiOFF数据集上也取得了0.673的F1-score,显示出良好的泛化能力。实验结果表明,选择性微调深层文本编码器显著提升了模型性能,优于传统方法。

🎯 应用场景

该研究的潜在应用场景包括社交媒体平台的内容审核、在线社区的仇恨言论监测以及自动化的内容过滤系统。TRACE框架的高效性和准确性使其在实际应用中具有重要价值,能够帮助平台更好地识别和处理恶意内容,维护网络环境的安全与和谐。

📄 摘要(原文)

Social media memes are a challenging domain for hate detection because they intertwine visual and textual cues into culturally nuanced messages. To tackle these challenges, we introduce TRACE, a hierarchical multimodal framework that leverages visually grounded context augmentation, along with a novel caption-scoring network to emphasize hate-relevant content, and parameter-efficient fine-tuning of CLIP's text encoder. Our experiments demonstrate that selectively fine-tuning deeper text encoder layers significantly enhances performance compared to simpler projection-layer fine-tuning methods. Specifically, our framework achieves state-of-the-art accuracy (0.807) and F1-score (0.806) on the widely-used Hateful Memes dataset, matching the performance of considerably larger models while maintaining efficiency. Moreover, it achieves superior generalization on the MultiOFF offensive meme dataset (F1-score 0.673), highlighting robustness across meme categories. Additional analyses confirm that robust visual grounding and nuanced text representations significantly reduce errors caused by benign confounders. We publicly release our code to facilitate future research.