Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

📄 arXiv: 2603.22985v1 📥 PDF

作者: Nils A. Herrmann, Tobias Eder, Jingyi He, Georg Groh

分类: cs.CL, cs.CY

发布日期: 2026-03-24

备注: Preprint. Under review


💡 一句话要点

提出区分不文明和不容忍言论的多模态内容审核方案,提升审核准确性和可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态内容审核 细粒度标注 不文明言论 不容忍言论 视觉-语言模型 迁移学习 联合学习

📋 核心要点

  1. 现有内容审核方法使用单一仇恨标签,无法区分语气和内容,导致审核粒度粗糙。
  2. 提出细粒度标注方案,区分不文明(语气)和不容忍(内容),提升审核的准确性。
  3. 实验表明,结合粗细粒度标签训练的模型,在有害内容检测上表现更佳,降低了漏检率。

📝 摘要(中文)

当前的多模态毒性基准测试通常使用单一的二元仇恨标签,这种粗略的方法混淆了表达的两个根本不同特征:语气和内容。本文借鉴传播科学理论,引入了一种细粒度的标注方案,区分了两个可分离的维度:不文明(粗鲁或轻蔑的语气)和不容忍(攻击多元化并针对群体或身份的内容),并将其应用于来自 Hateful Memes 数据集的 2030 个 memes。本文评估了在粗标签训练、跨标签方案的迁移学习以及将粗略的仇恨标签与细粒度注释相结合的联合学习方法下的不同视觉-语言模型。结果表明,细粒度的注释补充了现有的粗略标签,并且在联合使用时,提高了整体模型性能。此外,使用细粒度方案训练的模型表现出更平衡的与审核相关的错误分布,并且与仅在仇恨标签上训练的模型相比,更不容易漏检有害内容(LLaVA-1.6-Mistral-7B 的 FNR-FPR 从 0.74 降至 0.42;Qwen2.5-VL-7B 的 FNR-FPR 从 0.54 降至 0.28)。这项工作通过提高数据质量,为内容审核中以数据为中心的方法做出贡献,从而提高审核系统的可靠性和准确性。总的来说,结合粗略和细粒度的标签为更可靠的多模态审核提供了一条切实可行的途径。

🔬 方法详解

问题定义:现有内容审核系统依赖于粗粒度的仇恨标签,无法区分内容中的“不文明”语气和“不容忍”内容。这种混淆导致模型难以准确识别和处理不同类型的有害信息,容易产生误判或漏判,降低了审核效率和公平性。

核心思路:本文的核心思路是将仇恨言论分解为两个独立的维度:不文明(incivility)和不容忍(intolerance)。通过对数据进行细粒度的标注,模型可以学习到语气和内容之间的差异,从而更准确地识别和处理不同类型的有害信息。这种方法旨在提高内容审核的准确性和可靠性,减少误判和漏判。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:在 Hateful Memes 数据集上,使用新的细粒度标注方案,区分不文明和不容忍言论。2) 模型训练:使用不同的视觉-语言模型(如 LLaVA-1.6-Mistral-7B 和 Qwen2.5-VL-7B)进行训练,包括粗标签训练、跨标签方案的迁移学习以及联合学习方法。3) 性能评估:评估不同模型的性能,包括准确率、召回率、F1 值以及 FNR-FPR 等指标。

关键创新:该研究的关键创新在于提出了细粒度的内容审核标注方案,将仇恨言论分解为不文明和不容忍两个维度。这种方法能够更准确地捕捉到有害信息的本质特征,从而提高内容审核的准确性和可靠性。与传统的粗粒度标注方法相比,该方法能够更好地处理不同类型的有害信息,减少误判和漏判。

关键设计:在模型训练方面,该研究采用了多种策略,包括粗标签训练、跨标签方案的迁移学习以及联合学习方法。联合学习方法将粗略的仇恨标签与细粒度注释相结合,能够充分利用两种类型的信息,从而提高模型的性能。此外,该研究还关注了模型的错误分布,特别是 FNR-FPR 指标,旨在减少有害信息的漏检率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用细粒度标注方案训练的模型在有害内容检测方面表现更佳。例如,对于 LLaVA-1.6-Mistral-7B 模型,FNR-FPR 从 0.74 降至 0.42;对于 Qwen2.5-VL-7B 模型,FNR-FPR 从 0.54 降至 0.28。这表明,细粒度标注能够显著降低有害信息的漏检率,提高内容审核的可靠性。

🎯 应用场景

该研究成果可应用于各类社交媒体平台、在线论坛和内容分享网站,提升内容审核系统的准确性和效率。通过区分不文明和不容忍言论,可以更有效地识别和处理有害信息,维护网络空间的健康环境,减少不良信息对用户的影响。未来,该方法可以扩展到其他类型的有害信息检测,如虚假新闻、网络欺凌等。

📄 摘要(原文)

Current multimodal toxicity benchmarks typically use a single binary hatefulness label. This coarse approach conflates two fundamentally different characteristics of expression: tone and content. Drawing on communication science theory, we introduce a fine-grained annotation scheme that distinguishes two separable dimensions: incivility (rude or dismissive tone) and intolerance (content that attacks pluralism and targets groups or identities) and apply it to 2,030 memes from the Hateful Memes dataset. We evaluate different vision-language models under coarse-label training, transfer learning across label schemes and a joint learning approach that combines the coarse hatefulness label with our fine-grained annotations. Our results show that fine-grained annotations complement existing coarse labels and, when used jointly, improve overall model performance. Moreover, models trained with the fine-grained scheme exhibit more balanced moderation-relevant error profiles and are less prone to under-detection of harmful content than models trained on hatefulness labels alone (FNR-FPR, the difference between false negative and false positive rates: 0.74 to 0.42 for LLaVA-1.6-Mistral-7B; 0.54 to 0.28 for Qwen2.5-VL-7B). This work contributes to data-centric approaches in content moderation by improving the reliability and accuracy of moderation systems through enhanced data quality. Overall, combining both coarse and fine-grained labels provides a practical route to more reliable multimodal moderation.