ImpliHateVid: A Benchmark Dataset and Two-stage Contrastive Learning Framework for Implicit Hate Speech Detection in Videos

📄 arXiv: 2508.06570v2 📥 PDF

作者: Mohammad Zia Ur Rehman, Anukriti Bhatnagar, Omkar Kabde, Shubhi Bansal, Nagendra Kumar

分类: cs.CV, cs.LG

发布日期: 2025-08-07 (更新: 2025-08-15)

备注: Published in ACL 2025

DOI: 10.18653/v1/2025.acl-long.842


💡 一句话要点

提出ImpliHateVid数据集和双阶段对比学习框架,用于视频中隐式仇恨言论检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐式仇恨言论检测 视频分析 多模态学习 对比学习 数据集 深度学习 内容审核

📋 核心要点

  1. 现有仇恨言论检测主要集中在文本和图像,对视频的研究不足,尤其缺乏隐式仇恨言论的大规模数据集。
  2. 提出双阶段对比学习框架,首先训练模态特定编码器,然后训练跨模态编码器,融合多模态信息。
  3. 在ImpliHateVid和HateMM数据集上的实验表明,该方法在仇恨言论检测方面具有有效性,并验证了数据集的价值。

📝 摘要(中文)

本文提出一个名为ImpliHateVid的新数据集,专门用于视频中隐式仇恨言论检测。ImpliHateVid包含2009个视频,其中包括509个隐式仇恨视频、500个显式仇恨视频和1000个非仇恨视频,是首批致力于隐式仇恨检测的大规模视频数据集之一。此外,本文还提出了一种用于视频仇恨言论检测的新型双阶段对比学习框架。第一阶段,通过连接来自音频、文本和图像三个编码器的特征,使用对比损失训练模态特定的编码器。第二阶段,使用对比学习训练跨编码器,以细化多模态表示。此外,还结合了情感、情绪和基于字幕的特征,以增强隐式仇恨检测。在ImpliHateVid数据集和HateMM数据集上评估了该方法,结果表明所提出的多模态对比学习对于视频中仇恨内容检测的有效性以及数据集的重要性。

🔬 方法详解

问题定义:现有仇恨言论检测研究主要集中在文本和图像领域,而对视频中的仇恨言论检测,特别是隐式仇恨言论的检测,缺乏足够的研究和高质量的数据集支持。现有的方法难以有效捕捉视频中蕴含的复杂语义和多模态信息,导致检测精度不高。

核心思路:本文的核心思路是利用对比学习,通过构建正负样本对,学习视频中不同模态(音频、文本、图像)之间的关联性,从而更好地理解视频内容,并区分仇恨言论和非仇恨言论。双阶段的设计旨在先学习模态内的特征表示,再学习跨模态的融合表示,逐步提升模型的表达能力。

技术框架:该框架包含两个主要阶段:第一阶段是模态特定编码器训练,分别针对音频、文本和图像模态训练独立的编码器。这些编码器将各自模态的输入转化为特征向量。然后,将这些特征向量连接起来,使用对比损失进行训练,使得相似的视频在特征空间中更接近,不相似的视频更远离。第二阶段是跨模态编码器训练,使用对比学习进一步细化多模态表示。将不同模态的特征输入到跨模态编码器中,学习它们之间的关联性,从而获得更鲁棒和准确的视频表示。

关键创新:该方法的主要创新点在于提出了一个双阶段对比学习框架,该框架能够有效地融合视频中的多模态信息,并利用对比学习来区分仇恨言论和非仇恨言论。此外,该方法还结合了情感、情绪和基于字幕的特征,进一步提升了隐式仇恨言论检测的准确率。ImpliHateVid数据集本身也是一个重要的贡献,为该领域的研究提供了宝贵的数据资源。

关键设计:在第一阶段,音频特征提取可能使用预训练的音频模型,文本特征提取使用BERT等预训练语言模型,图像特征提取使用ResNet等卷积神经网络。对比损失函数可以选择InfoNCE loss等。在第二阶段,跨模态编码器可以使用Transformer等模型,学习不同模态特征之间的交互。情感和情绪特征可以通过预训练的情感分析模型提取。具体的参数设置和网络结构需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的双阶段对比学习框架在ImpliHateVid数据集上取得了显著的性能提升,证明了其在隐式仇恨言论检测方面的有效性。同时,在HateMM数据集上的实验也验证了该方法在通用仇恨言论检测方面的泛化能力。具体的性能数据(例如准确率、召回率等)需要在论文中查找。

🎯 应用场景

该研究成果可应用于在线视频平台的内容审核,自动识别和过滤仇恨言论视频,维护健康的网络环境。此外,该技术还可用于舆情监控、社会安全预警等领域,及时发现和处理潜在的社会风险。未来,该研究可进一步扩展到其他类型的有害内容检测,例如暴力、色情等。

📄 摘要(原文)

The existing research has primarily focused on text and image-based hate speech detection, video-based approaches remain underexplored. In this work, we introduce a novel dataset, ImpliHateVid, specifically curated for implicit hate speech detection in videos. ImpliHateVid consists of 2,009 videos comprising 509 implicit hate videos, 500 explicit hate videos, and 1,000 non-hate videos, making it one of the first large-scale video datasets dedicated to implicit hate detection. We also propose a novel two-stage contrastive learning framework for hate speech detection in videos. In the first stage, we train modality-specific encoders for audio, text, and image using contrastive loss by concatenating features from the three encoders. In the second stage, we train cross-encoders using contrastive learning to refine multimodal representations. Additionally, we incorporate sentiment, emotion, and caption-based features to enhance implicit hate detection. We evaluate our method on two datasets, ImpliHateVid for implicit hate speech detection and another dataset for general hate speech detection in videos, HateMM dataset, demonstrating the effectiveness of the proposed multimodal contrastive learning for hateful content detection in videos and the significance of our dataset.