Harmful YouTube Video Detection: A Taxonomy of Online Harm and MLLMs as Alternative Annotators

📄 arXiv: 2411.05854v1 📥 PDF

作者: Claire Wonjeong Jo, Miki Wesołowska, Magdalena Wojcieszak

分类: cs.MM, cs.AI, cs.CV, cs.CY

发布日期: 2024-11-06


💡 一句话要点

提出在线有害视频分类体系,并验证MLLM作为标注器的可行性,优于众包。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 有害视频检测 多模态学习 大型语言模型 内容审核 在线危害分类

📋 核心要点

  1. 现有方法对有害视频的定义不一致,且人工标注成本高昂,限制了有害视频检测的效率和准确性。
  2. 本研究提出一个全面的在线危害分类体系,并探索使用多模态大型语言模型(MLLM)作为自动标注器的可行性。
  3. 实验结果表明,GPT-4-Turbo在有害视频检测和多标签分类任务中,性能优于众包标注,接近专家水平。

📝 摘要(中文)

短视频平台被全球数十亿用户使用,但也让用户面临有害内容,包括点击诱饵、人身伤害、虚假信息和网络仇恨等。检测有害视频仍然具有挑战性,原因在于对“有害”的理解不一致,以及人工标注的资源限制和精神负担。本研究旨在改进视频内容中检测有害内容的方法。首先,我们为视频平台上的在线危害开发了一个全面的分类体系,将其分为六类:信息、仇恨和骚扰、成瘾、点击诱饵、性和人身伤害。其次,我们验证了多模态大型语言模型作为有害视频可靠标注器的可行性。我们使用14个图像帧、1个缩略图和文本元数据分析了19422个YouTube视频,将众包工作者(Mturk)和GPT-4-Turbo的准确性与领域专家标注(作为黄金标准)进行了比较。结果表明,GPT-4-Turbo在二元分类(有害与无害)和多标签危害分类任务中均优于众包工作者。在方法论上,本研究将LLM的应用扩展到文本标注和二元分类之外的多标签和多模态环境。在实践中,我们的研究通过指导视频平台上对有害内容的定义和识别,为减轻在线危害做出了贡献。

🔬 方法详解

问题定义:当前在线视频平台充斥着各种有害内容,但由于对“有害”的定义缺乏统一标准,以及人工标注成本高、易出错等问题,导致有害视频的检测效率和准确性较低。现有方法难以有效应对多模态信息融合和复杂语义理解的挑战。

核心思路:本研究的核心思路是构建一个清晰的在线危害分类体系,并利用多模态大型语言模型(MLLM)强大的理解和推理能力,将其作为自动标注器,替代或辅助人工标注,从而提高有害视频检测的效率和准确性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 构建在线危害分类体系:将在线危害分为信息、仇恨和骚扰、成瘾、点击诱饵、性和人身伤害六大类。2) 数据收集与准备:收集包含视频帧、缩略图和文本元数据的YouTube视频数据集。3) 模型训练与评估:使用GPT-4-Turbo等MLLM进行训练,并与众包标注结果进行对比,以领域专家标注作为黄金标准。4) 性能分析与优化:分析MLLM在不同类别有害视频上的表现,并进行针对性优化。

关键创新:本研究的关键创新在于:1) 提出了一个全面的在线危害分类体系,为有害视频检测提供了清晰的定义和标准。2) 验证了MLLM在多模态有害视频检测任务中的可行性,并证明其性能优于众包标注。3) 将LLM的应用扩展到多标签和多模态环境,突破了传统LLM在文本标注和二元分类上的局限性。

关键设计:研究中使用了GPT-4-Turbo作为MLLM,输入包括14个图像帧、1个缩略图和文本元数据。采用多标签分类损失函数,对每个视频进行有害类别预测。通过与领域专家标注的对比,评估模型的准确率、召回率和F1值等指标。具体参数设置和网络结构细节在论文中未详细描述,属于GPT-4-Turbo的内部实现。

📊 实验亮点

实验结果表明,GPT-4-Turbo在二元分类(有害与无害)和多标签危害分类任务中均优于众包工作者(Mturk)。具体性能数据未在摘要中给出,但强调了MLLM在准确性和效率上的优势,证明了其作为有害视频自动标注器的可行性。

🎯 应用场景

该研究成果可应用于在线视频平台的内容审核,自动识别和过滤有害视频,减少人工审核成本,提高审核效率。此外,该研究提出的在线危害分类体系可作为行业标准,指导平台制定更完善的内容管理策略。未来,该方法还可扩展到其他多媒体内容,如图像、音频等,实现更全面的在线内容安全保障。

📄 摘要(原文)

Short video platforms, such as YouTube, Instagram, or TikTok, are used by billions of users globally. These platforms expose users to harmful content, ranging from clickbait or physical harms to misinformation or online hate. Yet, detecting harmful videos remains challenging due to an inconsistent understanding of what constitutes harm and limited resources and mental tolls involved in human annotation. As such, this study advances measures and methods to detect harm in video content. First, we develop a comprehensive taxonomy for online harm on video platforms, categorizing it into six categories: Information, Hate and harassment, Addictive, Clickbait, Sexual, and Physical harms. Next, we establish multimodal large language models as reliable annotators of harmful videos. We analyze 19,422 YouTube videos using 14 image frames, 1 thumbnail, and text metadata, comparing the accuracy of crowdworkers (Mturk) and GPT-4-Turbo with domain expert annotations serving as the gold standard. Our results demonstrate that GPT-4-Turbo outperforms crowdworkers in both binary classification (harmful vs. harmless) and multi-label harm categorization tasks. Methodologically, this study extends the application of LLMs to multi-label and multi-modal contexts beyond text annotation and binary classification. Practically, our study contributes to online harm mitigation by guiding the definitions and identification of harmful content on video platforms.