ICM-Assistant: Instruction-tuning Multimodal Large Language Models for Rule-based Explainable Image Content Moderation

📄 arXiv: 2412.18216v2 📥 PDF

作者: Mengyang Wu, Yuzhi Zhao, Jialun Cao, Mingjie Xu, Zhongming Jiang, Xuehui Wang, Qinbin Li, Guangneng Hu, Shengchao Qin, Chi-Wing Fu

分类: cs.CV, cs.CL

发布日期: 2024-12-24 (更新: 2025-01-20)

备注: Accepted by the AAAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出ICM-Assistant,用于基于规则的可解释图像内容审核,显著提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像内容审核 多模态大语言模型 指令微调 规则学习 可解释性 数据集生成 内容合规

📋 核心要点

  1. 现有图像内容审核模型难以针对不同标准做出精确决策,且多模态大语言模型在规则型审核中与人工审核员存在不一致。
  2. 论文设计了一种基于规则的数据集生成流程,通过分解规则和多阶段提示来丰富图像注释,构建了包含详细解释和问答对的ICM-Instruct数据集。
  3. 提出的ICM-Assistant模型在审核分类和解释质量上均显著优于现有方法,平均提升分别为36.8%和26.6%。

📝 摘要(中文)

互联网上充斥着大量有争议的内容,违反了各种文化规范和儿童保护标准。传统的图像内容审核(ICM)模型在为不同的标准产生精确的审核决策方面存在不足。最近的多模态大型语言模型(MLLM)在应用于通用的基于规则的ICM时,经常产生与人工审核员不一致的分类和解释结果。为了实现灵活、可解释和准确的ICM,我们设计了一种新颖的基于规则的数据集生成流程,分解简洁的人工定义的规则,并利用精心设计的多阶段提示来丰富简短的显式图像注释。我们的ICM-Instruct数据集包括详细的审核解释和审核问答对。在此基础上,我们在基于规则的ICM框架中创建了ICM-Assistant模型,使其易于在实际应用中使用。我们的ICM-Assistant模型展示了卓越的性能和灵活性。具体而言,它在各种来源上显著优于现有方法,在审核分类(平均提高36.8%)和审核解释质量(平均提高26.6%)方面均持续优于现有的MLLM。

🔬 方法详解

问题定义:论文旨在解决现有图像内容审核(ICM)模型在面对多样化标准时,审核决策不够精确的问题。同时,现有的多模态大语言模型(MLLM)在应用于基于规则的ICM时,其分类和解释结果经常与人工审核员的判断不一致,缺乏可解释性,难以满足实际应用需求。

核心思路:论文的核心思路是构建一个基于规则的、可解释的ICM系统。通过将人工定义的规则显式地融入到模型的训练和推理过程中,提高模型决策的准确性和可解释性。同时,利用多模态大语言模型强大的理解和生成能力,生成详细的审核解释,从而增强模型的可信度。

技术框架:ICM-Assistant的整体框架主要包含两个部分:一是基于规则的数据集生成流程,二是基于ICM-Instruct数据集训练的ICM-Assistant模型。数据集生成流程包括规则分解和多阶段提示两个关键步骤,用于生成包含详细审核解释和问答对的训练数据。ICM-Assistant模型则是在MLLM的基础上,通过指令微调(Instruction-tuning)的方式进行训练,使其能够根据给定的图像和规则,生成准确的审核决策和可解释的说明。

关键创新:论文的关键创新在于提出了一个新颖的基于规则的数据集生成流程,该流程能够有效地将人工定义的规则融入到训练数据中,从而提高了模型的准确性和可解释性。此外,论文还通过指令微调的方式,将MLLM应用于ICM任务,并取得了显著的性能提升。

关键设计:在数据集生成方面,论文设计了多阶段提示策略,用于生成高质量的审核解释和问答对。在模型训练方面,论文采用了指令微调的方法,并针对ICM任务设计了特定的损失函数,以优化模型的性能。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ICM-Assistant在各种来源的数据集上均显著优于现有方法,在审核分类方面平均提升了36.8%,在审核解释质量方面平均提升了26.6%。这些结果表明,ICM-Assistant在准确性和可解释性方面均取得了显著的进步,为实际应用奠定了坚实的基础。具体的基线模型和数据集信息在论文中未详细说明,属于未知信息。

🎯 应用场景

ICM-Assistant可应用于各种互联网平台的内容审核,例如社交媒体、电商平台、新闻网站等。它可以帮助平台自动识别和过滤违规内容,提高审核效率,降低人工审核成本。此外,ICM-Assistant的可解释性使其能够为用户提供清晰的审核理由,增强用户对平台审核决策的信任感。未来,该技术有望应用于更广泛的领域,例如智能安防、医疗诊断等。

📄 摘要(原文)

Controversial contents largely inundate the Internet, infringing various cultural norms and child protection standards. Traditional Image Content Moderation (ICM) models fall short in producing precise moderation decisions for diverse standards, while recent multimodal large language models (MLLMs), when adopted to general rule-based ICM, often produce classification and explanation results that are inconsistent with human moderators. Aiming at flexible, explainable, and accurate ICM, we design a novel rule-based dataset generation pipeline, decomposing concise human-defined rules and leveraging well-designed multi-stage prompts to enrich short explicit image annotations. Our ICM-Instruct dataset includes detailed moderation explanation and moderation Q-A pairs. Built upon it, we create our ICM-Assistant model in the framework of rule-based ICM, making it readily applicable in real practice. Our ICM-Assistant model demonstrates exceptional performance and flexibility. Specifically, it significantly outperforms existing approaches on various sources, improving both the moderation classification (36.8% on average) and moderation explanation quality (26.6% on average) consistently over existing MLLMs. Code/Data is available at https://github.com/zhaoyuzhi/ICM-Assistant.