AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety

📄 arXiv: 2508.05527v1 📥 PDF

作者: Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra

分类: cs.CV

发布日期: 2025-08-07

备注: Accepted to the Computer Vision in Advertising and Marketing (CVAM) workshop at ICCV 2025


💡 一句话要点

评估多模态LLM在品牌安全内容审核中的表现,对比AI与人工审核员

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 内容审核 品牌安全 大型语言模型 视频理解

📋 核心要点

  1. 现有视频内容审核依赖人工,面临规模增长带来的运营和心理健康挑战,亟需自动化解决方案。
  2. 论文提出利用多模态大型语言模型(MLLM)理解视频内容,实现品牌安全相关的自动化内容审核。
  3. 实验表明,MLLM在品牌安全分类任务上表现出有效性,并与人工审核员在准确性和成本效益上进行了对比。

📝 摘要(中文)

随着在线视频内容呈指数级增长,对不安全视频的审核需求已经超过了人工能力,带来了运营和心理健康方面的挑战。尽管最近的研究表明多模态大型语言模型(MLLM)在各种视频理解任务中具有优势,但它们在多模态内容审核中的应用仍相对未被充分探索,而多模态内容审核需要对视觉和文本线索进行细致的理解。本文旨在评估 MLLM 在品牌安全分类中的能力,品牌安全分类是内容审核的一个关键子集,用于保护广告的完整性。为此,我们引入了一个新的多模态和多语言数据集,该数据集由专业审核员根据多种风险类别进行精心标注。通过详细的对比分析,我们展示了诸如 Gemini、GPT 和 Llama 等 MLLM 在多模态品牌安全方面的有效性,并评估了它们与专业人工审核员相比的准确性和成本效益。此外,我们还进行了深入讨论,阐明了 MLLM 的局限性和失败案例。我们将发布我们的数据集,以促进未来对有效和负责任的品牌安全和内容审核的研究。

🔬 方法详解

问题定义:论文旨在解决在线视频内容审核中,人工审核效率低下且成本高昂的问题。现有方法难以有效处理海量视频数据,并且对视觉和文本信息的多模态理解能力不足,导致审核质量难以保证。特别是在品牌安全领域,误判或漏判可能对广告商造成重大损失。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)强大的视觉和文本理解能力,模拟人工审核员的行为,自动识别视频内容中存在的品牌安全风险。通过将视频帧和相关文本信息输入MLLM,使其能够综合分析多模态信息,判断视频内容是否符合品牌安全标准。

技术框架:论文构建了一个基于MLLM的品牌安全审核框架。该框架主要包含以下几个阶段:1) 数据预处理:对视频进行抽帧,提取关键帧图像,并提取视频标题、描述等文本信息。2) 特征提取:利用预训练的视觉模型(如CLIP)提取图像特征,并利用文本模型(如BERT)提取文本特征。3) 多模态融合:将图像特征和文本特征输入MLLM,进行多模态信息融合。4) 风险分类:MLLM根据融合后的特征,判断视频内容是否属于品牌安全风险类别。

关键创新:论文的关键创新在于将MLLM应用于多模态品牌安全审核任务,并构建了一个新的多模态和多语言数据集。该数据集由专业审核员标注,涵盖多种风险类别,为MLLM的训练和评估提供了高质量的数据支持。此外,论文还对不同MLLM(如Gemini、GPT、Llama)在品牌安全审核任务上的性能进行了对比分析,为实际应用提供了参考。

关键设计:论文的关键设计包括:1) 数据集的构建:数据集包含多种语言和风险类别,并由专业审核员进行标注,保证了数据的质量和多样性。2) MLLM的选择:论文选择了多种主流的MLLM进行实验,并对它们的性能进行了对比分析。3) 评估指标的选择:论文选择了准确率、召回率、F1值等指标来评估MLLM的性能,并与人工审核员的性能进行了对比。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,MLLM在多模态品牌安全分类任务上表现出良好的性能,在特定风险类别上甚至可以达到与人工审核员相当的准确率。论文对比了Gemini、GPT和Llama等MLLM的性能,并分析了它们的优缺点。此外,论文还评估了MLLM的成本效益,发现其在处理大规模视频数据时具有显著的优势。

🎯 应用场景

该研究成果可应用于自动化内容审核平台,提升品牌安全保障能力,降低人工审核成本。潜在应用领域包括广告投放平台、社交媒体平台、视频分享网站等。通过自动识别和过滤不符合品牌安全标准的视频内容,可以有效保护广告商的利益,维护平台的声誉,并为用户提供更安全、更健康的在线环境。

📄 摘要(原文)

As the volume of video content online grows exponentially, the demand for moderation of unsafe videos has surpassed human capabilities, posing both operational and mental health challenges. While recent studies demonstrated the merits of Multimodal Large Language Models (MLLMs) in various video understanding tasks, their application to multimodal content moderation, a domain that requires nuanced understanding of both visual and textual cues, remains relatively underexplored. In this work, we benchmark the capabilities of MLLMs in brand safety classification, a critical subset of content moderation for safe-guarding advertising integrity. To this end, we introduce a novel, multimodal and multilingual dataset, meticulously labeled by professional reviewers in a multitude of risk categories. Through a detailed comparative analysis, we demonstrate the effectiveness of MLLMs such as Gemini, GPT, and Llama in multimodal brand safety, and evaluate their accuracy and cost efficiency compared to professional human reviewers. Furthermore, we present an in-depth discussion shedding light on limitations of MLLMs and failure cases. We are releasing our dataset alongside this paper to facilitate future research on effective and responsible brand safety and content moderation.