MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos

📄 arXiv: 2512.10408v3 📥 PDF

作者: Qiyue Sun, Tailin Chen, Yinghui Zhang, Yuchen Zhang, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

分类: cs.CV

发布日期: 2025-12-11 (更新: 2026-01-29)

备注: In Proceedings of the ACM Web Conference 2026 (WWW 2026)


💡 一句话要点

提出MultiHateLoc框架,用于在线视频中多模态仇恨内容的弱监督时序定位。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 仇恨言论检测 时序定位 弱监督学习 跨模态融合

📋 核心要点

  1. 现有方法难以在弱监督条件下对在线视频中的多模态仇恨内容进行精确定位,无法有效捕捉跨模态和时序动态。
  2. MultiHateLoc框架通过模态感知的时间编码器、动态跨模态融合和对比对齐策略,以及模态感知的MIL目标,实现细粒度的仇恨内容定位。
  3. 实验表明,MultiHateLoc在HateMM和MultiHateClip数据集上取得了最先进的定位性能,验证了其有效性。

📝 摘要(中文)

随着TikTok和YouTube等平台上视频内容的快速增长,多模态仇恨言论的传播日益加剧,有害信息在视觉、听觉和文本流中以微妙和异步的方式出现。现有研究主要集中在视频级别的分类,而时序定位这一实际应用中至关重要的任务,即识别仇恨片段发生的时间,在很大程度上未得到解决。在弱监督条件下,即只有视频级别的标签可用时,这一挑战更加显著,静态融合或基于分类的架构难以捕捉跨模态和时序动态。为了应对这些挑战,我们提出了MultiHateLoc,这是第一个为弱监督多模态仇恨定位设计的框架。MultiHateLoc包含:(1)模态感知的时间编码器,用于建模异构序列模式,包括为特征增强量身定制的基于文本的预处理模块;(2)动态跨模态融合,用于自适应地强调每个时刻信息量最大的模态,以及跨模态对比对齐策略,以增强多模态特征一致性;(3)模态感知的MIL目标,用于在视频级别监督下识别区分性片段。尽管仅依赖于粗略标签,MultiHateLoc仍能产生细粒度的、可解释的帧级别预测。在HateMM和MultiHateClip上的实验表明,我们的方法在定位任务中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决在线视频中多模态仇恨内容的时序定位问题。现有方法主要集中于视频级别的分类,忽略了仇恨片段在视频中的具体时间位置。此外,在弱监督场景下,仅有视频级别的标签,使得精确定位仇恨片段变得更加困难,传统的静态融合方法难以捕捉跨模态和时序上的动态变化。

核心思路:论文的核心思路是利用模态感知的时间编码器来建模不同模态的序列模式,并通过动态跨模态融合自适应地选择信息量最大的模态。同时,采用跨模态对比对齐策略来增强多模态特征的一致性。最后,使用模态感知的多示例学习(MIL)目标函数,在视频级别监督下识别出具有区分性的片段。

技术框架:MultiHateLoc框架主要包含三个模块:1) 模态感知的时间编码器:针对视觉、听觉和文本模态分别设计了时间编码器,用于提取每个模态的序列特征。特别地,文本模态使用了定制的预处理模块来增强特征。2) 动态跨模态融合与对比对齐:使用动态融合机制,根据每个时刻不同模态的重要性进行加权融合。同时,引入跨模态对比学习,使得不同模态的特征在语义空间中对齐。3) 模态感知的MIL目标函数:利用视频级别的标签,通过MIL方法学习区分仇恨片段和非仇恨片段。

关键创新:该论文的关键创新在于提出了一个完整的弱监督多模态仇恨定位框架,该框架能够有效地利用不同模态的信息,并捕捉它们之间的时序关系。动态跨模态融合和对比对齐策略是另一个创新点,它们能够自适应地选择信息量最大的模态,并增强多模态特征的一致性。

关键设计:在模态感知的时间编码器中,针对不同的模态使用了不同的网络结构,例如,文本模态使用了预训练的语言模型。动态跨模态融合使用了注意力机制,根据每个时刻不同模态的重要性进行加权融合。跨模态对比学习使用了InfoNCE损失函数,使得不同模态的特征在语义空间中对齐。MIL目标函数使用了softmax函数来预测每个片段的仇恨概率,并使用视频级别的标签进行监督。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MultiHateLoc在HateMM和MultiHateClip数据集上进行了实验,结果表明该方法在定位任务中取得了最先进的性能。具体而言,相较于现有方法,MultiHateLoc在定位精度上取得了显著提升,证明了其在弱监督多模态仇恨定位任务中的有效性。实验结果还表明,动态跨模态融合和对比对齐策略能够有效地提高定位性能。

🎯 应用场景

该研究成果可应用于在线视频平台的内容审核,自动检测和定位仇恨言论,减少人工审核成本,提高审核效率。此外,该技术还可以用于分析社交媒体上的舆情,识别和追踪有害信息的传播路径,为构建健康的网络环境提供技术支持。未来,该技术可以扩展到其他类型的多模态内容分析,例如虚假新闻检测、版权侵权识别等。

📄 摘要(原文)

The rapid growth of video content on platforms such as TikTok and YouTube has intensified the spread of multimodal hate speech, where harmful cues emerge subtly and asynchronously across visual, acoustic, and textual streams. Existing research primarily focuses on video-level classification, leaving the practically crucial task of temporal localisation, identifying when hateful segments occur, largely unaddressed. This challenge is even more noticeable under weak supervision, where only video-level labels are available, and static fusion or classification-based architectures struggle to capture cross-modal and temporal dynamics. To address these challenges, we propose MultiHateLoc, the first framework designed for weakly-supervised multimodal hate localisation. MultiHateLoc incorporates (1) modality-aware temporal encoders to model heterogeneous sequential patterns, including a tailored text-based preprocessing module for feature enhancement; (2) dynamic cross-modal fusion to adaptively emphasise the most informative modality at each moment and a cross-modal contrastive alignment strategy to enhance multimodal feature consistency; (3) a modality-aware MIL objective to identify discriminative segments under video-level supervision. Despite relying solely on coarse labels, MultiHateLoc produces fine-grained, interpretable frame-level predictions. Experiments on HateMM and MultiHateClip show that our method achieves state-of-the-art performance in the localisation task.