ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos

📄 arXiv: 2405.20628v2 📥 PDF

作者: Krishanu Maity, A. S. Poornash, Sriparna Saha, Pushpak Bhattacharyya

分类: cs.AI, cs.CL, cs.CV

发布日期: 2024-05-31 (更新: 2024-07-14)

备注: Accepted as a Long Paper in ACL Findings 2024. For acceptance details, see https://2024.aclweb.org/program/finding_papers/


💡 一句话要点

ToxVidLM:提出一种多模态框架,用于检测混合语视频中的有害内容。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 有害内容检测 混合语 视频分析 多任务学习

📋 核心要点

  1. 现有方法在检测视频中的有害内容,尤其是在低资源混合语环境中,面临着数据稀缺和模态融合的挑战。
  2. ToxVidLM通过构建多模态多任务框架,融合视频的视觉、听觉和文本信息,提升有害内容检测的准确性。
  3. 实验结果表明,ToxVidLM在混合印地语-英语视频数据集上取得了显著的性能提升,准确率达到94.29%。

📝 摘要(中文)

本文提出了一种用于检测混合语视频中有害内容的多模态框架ToxVidLM。随着互联网技术的快速发展,包括视频在内的多模态内容激增,扩展了在线交流的范围。然而,在这种多样化的环境中检测有害内容,尤其是在低资源混合语中,仍然是一个关键挑战。虽然大量的研究已经解决了文本数据中有害内容的检测问题,但视频内容领域,尤其是在非英语语言中,相对未被充分探索。本文通过引入一个基准数据集来解决这一研究空白,该数据集是首个此类数据集,包含从YouTube收集的931个视频,其中包含4021个混合印地语-英语的语句。该数据集中的每个语句都经过了精心标注,包括毒性、严重性和情感标签。我们开发了一个先进的多模态多任务框架,通过利用语言模型(LM)来检测视频内容中的毒性,并进行情感和严重性分析。ToxVidLM包含三个关键模块——编码器模块、跨模态同步模块和多任务模块——构建了一个通用的多模态LM,专门用于复杂的视频分类任务。实验表明,结合视频中的多种模态可以显著提高有害内容检测的性能,准确率和加权F1分数分别达到94.29%和94.35%。

🔬 方法详解

问题定义:论文旨在解决混合语视频中有害内容检测的问题。现有方法主要集中在文本数据上,忽略了视频的多模态特性,并且缺乏针对低资源混合语的有效数据集和模型。因此,现有方法在处理混合语视频时,准确率和鲁棒性都存在不足。

核心思路:论文的核心思路是利用视频的多模态信息(视觉、听觉和文本)来提高有害内容检测的准确性。通过构建一个多模态多任务框架,同时进行毒性检测、情感分析和严重性分析,从而更全面地理解视频内容。这种多任务学习的方式可以共享特征,提高模型的泛化能力。

技术框架:ToxVidLM框架包含三个主要模块:编码器模块、跨模态同步模块和多任务模块。编码器模块负责提取视频中不同模态的特征,包括视觉特征(通过CNN提取)、听觉特征(通过音频处理技术提取)和文本特征(通过预训练语言模型提取)。跨模态同步模块用于将不同模态的特征进行对齐和融合,例如使用注意力机制来学习不同模态之间的关系。多任务模块则基于融合后的特征,同时进行毒性检测、情感分析和严重性分析。

关键创新:论文的关键创新在于提出了一个专门针对混合语视频有害内容检测的多模态多任务框架。该框架能够有效地融合视频的多种模态信息,并利用多任务学习提高模型的性能。此外,论文还构建了一个新的混合印地语-英语视频数据集,为该领域的研究提供了基准。

关键设计:在编码器模块中,视觉特征可能使用预训练的ResNet或EfficientNet,音频特征可能使用VGGish或类似的音频特征提取器,文本特征使用预训练的BERT或XLM-RoBERTa等模型。跨模态同步模块可能使用Transformer或注意力机制进行特征融合。多任务模块使用共享的底层网络和针对不同任务的特定输出层。损失函数通常是交叉熵损失或其变体,用于衡量模型的预测结果与真实标签之间的差异。具体参数设置和网络结构需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ToxVidLM在混合印地语-英语视频数据集上取得了显著的性能提升,准确率达到94.29%,加权F1分数达到94.35%。与仅使用文本信息的基线模型相比,ToxVidLM的性能提升显著,证明了多模态融合的有效性。该结果表明,ToxVidLM能够有效地检测混合语视频中的有害内容。

🎯 应用场景

该研究成果可应用于视频平台的内容审核,自动识别和过滤有害视频,维护健康的在线环境。此外,该技术还可以用于舆情监控、社会安全等领域,及时发现和处理潜在的风险事件。未来,该研究可以扩展到更多语言和模态,为构建更加安全和健康的互联网生态系统做出贡献。

📄 摘要(原文)

In an era of rapidly evolving internet technology, the surge in multimodal content, including videos, has expanded the horizons of online communication. However, the detection of toxic content in this diverse landscape, particularly in low-resource code-mixed languages, remains a critical challenge. While substantial research has addressed toxic content detection in textual data, the realm of video content, especially in non-English languages, has been relatively underexplored. This paper addresses this research gap by introducing a benchmark dataset, the first of its kind, consisting of 931 videos with 4021 code-mixed Hindi-English utterances collected from YouTube. Each utterance within this dataset has been meticulously annotated for toxicity, severity, and sentiment labels. We have developed an advanced Multimodal Multitask framework built for Toxicity detection in Video Content by leveraging Language Models (LMs), crafted for the primary objective along with the additional tasks of conducting sentiment and severity analysis. ToxVidLM incorporates three key modules - the Encoder module, Cross-Modal Synchronization module, and Multitask module - crafting a generic multimodal LM customized for intricate video classification tasks. Our experiments reveal that incorporating multiple modalities from the videos substantially enhances the performance of toxic content detection by achieving an Accuracy and Weighted F1 score of 94.29% and 94.35%, respectively.