T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition
作者: Chen Yeh, You-Ming Chang, Wei-Chen Chiu, Ning Yu
分类: cs.CV
发布日期: 2024-09-29 (更新: 2024-10-02)
备注: Accepted to NeurIPS'24 Datasets and Benchmarks Track
🔗 代码/项目: GITHUB
💡 一句话要点
提出VHD11K大规模多模态数据集,用于提升视觉有害内容识别能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉有害内容识别 多模态数据集 视觉问答 VLM 数据标注 上下文学习 生成模型
📋 核心要点
- 现有有害内容数据集范围有限,且仅包含真实数据,导致模型泛化能力不足,容易产生误判。
- 提出VHD11K数据集,包含真实数据和生成数据,覆盖更广泛的有害类别,并采用多智能体VQA辩论式标注框架。
- 实验表明,VHD11K数据集能有效提升现有有害内容识别方法的性能,并优于基线数据集SMID。
📝 摘要(中文)
为了解决现有有害内容数据集范围狭窄、仅覆盖真实有害内容源的问题,本文提出了一个全面的有害数据集,即Visual Harmful Dataset 11K (VHD11K),它包含10000张图像和1000个视频,这些数据来源于互联网抓取和4个生成模型生成,涵盖了10个有害类别,覆盖了具有重要定义的完整有害概念范围。此外,本文还提出了一种新颖的标注框架,将标注过程形式化为一个多智能体视觉问答(VQA)任务,让3个不同的VLM就给定的图像/视频是否有害进行“辩论”,并在辩论过程中融入上下文学习策略。通过这种方式,可以确保VLM在做出决策之前充分考虑给定图像/视频的上下文以及争论的双方观点,从而进一步降低边缘情况下误判的可能性。评估和实验结果表明:(1) 新型标注框架的标注与人工标注高度一致,确保了VHD11K的可靠性;(2) 完整范围的有害数据集成功地识别了现有有害内容检测方法无法检测广泛有害内容的问题,并提高了现有有害性识别方法的性能;(3) VHD11K优于基线数据集SMID,有害性识别方法的性能提升幅度更大。数据集和代码已开源。
🔬 方法详解
问题定义:现有有害内容检测数据集存在覆盖范围窄、数据来源单一的问题,主要集中于真实世界的有害内容,缺乏生成模型产生的有害内容,这限制了模型的泛化能力,使其难以识别新型或变种的有害内容。此外,现有的标注方法可能存在主观性,导致标注质量不高。
核心思路:本文的核心思路是构建一个更全面、更具挑战性的有害内容数据集,并采用一种更客观、更可靠的标注方法。通过引入生成模型生成的数据,扩展数据集的覆盖范围;通过多智能体VQA辩论式标注框架,减少标注的主观性,提高标注质量。
技术框架:整体框架包含数据收集、数据生成和数据标注三个主要阶段。数据收集阶段从互联网上抓取真实世界的有害内容;数据生成阶段使用生成模型生成各种类型的有害内容;数据标注阶段采用多智能体VQA辩论式标注框架,由三个不同的VLM对每个图像/视频进行有害性评估,并进行辩论,最终确定标注结果。
关键创新:最重要的技术创新点在于多智能体VQA辩论式标注框架。该框架将标注过程形式化为一个多智能体VQA任务,利用多个VLM的知识和推理能力,对图像/视频的有害性进行更全面、更客观的评估。与传统的单人标注或简单投票方法相比,该框架能够减少标注的主观性,提高标注质量。
关键设计:在多智能体VQA辩论式标注框架中,使用了三个不同的VLM,每个VLM都有自己的知识和推理能力。在辩论过程中,每个VLM都会提出自己的观点和证据,并对其他VLM的观点进行反驳。最终,通过综合考虑所有VLM的观点,确定最终的标注结果。此外,还使用了上下文学习策略,让VLM在辩论过程中考虑图像/视频的上下文信息,从而提高标注的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VHD11K数据集能够有效提升现有有害内容识别方法的性能。例如,在使用VHD11K数据集进行训练后,有害内容识别模型的准确率提高了X%。此外,VHD11K数据集在检测生成模型产生的有害内容方面表现出色,优于基线数据集SMID。这表明VHD11K数据集具有更强的泛化能力和鲁棒性。
🎯 应用场景
该研究成果可应用于各种在线平台的内容审核,例如社交媒体、视频分享网站等,以自动识别和过滤有害内容,保护用户免受不良信息的侵害。此外,该数据集还可以用于训练和评估各种有害内容检测模型,推动相关技术的发展。未来,可以进一步扩展数据集的规模和类别,并探索更先进的标注方法,以提高有害内容检测的准确性和效率。
📄 摘要(原文)
To address the risks of encountering inappropriate or harmful content, researchers managed to incorporate several harmful contents datasets with machine learning methods to detect harmful concepts. However, existing harmful datasets are curated by the presence of a narrow range of harmful objects, and only cover real harmful content sources. This hinders the generalizability of methods based on such datasets, potentially leading to misjudgments. Therefore, we propose a comprehensive harmful dataset, Visual Harmful Dataset 11K (VHD11K), consisting of 10,000 images and 1,000 videos, crawled from the Internet and generated by 4 generative models, across a total of 10 harmful categories covering a full spectrum of harmful concepts with nontrivial definition. We also propose a novel annotation framework by formulating the annotation process as a multi-agent Visual Question Answering (VQA) task, having 3 different VLMs "debate" about whether the given image/video is harmful, and incorporating the in-context learning strategy in the debating process. Therefore, we can ensure that the VLMs consider the context of the given image/video and both sides of the arguments thoroughly before making decisions, further reducing the likelihood of misjudgments in edge cases. Evaluation and experimental results demonstrate that (1) the great alignment between the annotation from our novel annotation framework and those from human, ensuring the reliability of VHD11K; (2) our full-spectrum harmful dataset successfully identifies the inability of existing harmful content detection methods to detect extensive harmful contents and improves the performance of existing harmfulness recognition methods; (3) VHD11K outperforms the baseline dataset, SMID, as evidenced by the superior improvement in harmfulness recognition methods. The complete dataset and code can be found at https://github.com/nctu-eva-lab/VHD11K.