Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor

📄 arXiv: 2603.17759v1 📥 PDF

作者: Ahmed Sharshar, Hosam Elgendy, Saad El Dine Ahmed, Yasser Rohaim, Yuxia Wang

分类: cs.CL, cs.AI

发布日期: 2026-03-18


💡 一句话要点

提出多模态多语言基准以解决有害幽默检测问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 有害幽默检测 文化理解 深度推理 多语言处理

📋 核心要点

  1. 现有方法在检测黑色幽默时未能有效捕捉文化细微差别和隐含线索,导致安全性问题。
  2. 论文提出了一种多模态、多语言的数据集,严格区分安全与有害幽默,并进行深层推理分类。
  3. 实验结果显示,闭源模型在检测有害幽默方面显著优于开源模型,尤其在不同语言间表现差异明显。

📝 摘要(中文)

黑色幽默常常依赖于微妙的文化细微差别和隐含线索,这需要上下文推理来解读,给安全性带来了挑战,而现有的静态基准无法捕捉这些特征。为此,我们引入了一种新颖的多模态、多语言基准,用于检测和理解有害和冒犯性的幽默。我们手动整理的数据集包含3000条文本和6000张图像,涵盖英语和阿拉伯语,以及1200个视频,涉及英语、阿拉伯语和语言独立的(通用)上下文。与标准的毒性数据集不同,我们执行严格的注释指南:区分“安全”笑话和“有害”笑话,后者进一步分类为“显性”(明显)和“隐性”(隐蔽)类别,以探讨深层推理。我们系统地评估了最新的开源和闭源模型在所有模态上的表现。我们的研究结果显示,闭源模型的表现显著优于开源模型,并且在英语和阿拉伯语之间的表现差异显著,强调了文化基础和推理意识的安全对齐的关键需求。

🔬 方法详解

问题定义:本论文旨在解决现有黑色幽默检测方法在文化和上下文推理方面的不足,现有静态基准无法有效捕捉这些特征,导致安全性问题。

核心思路:我们通过构建一个多模态、多语言的基准数据集,手动标注并严格区分安全与有害幽默,尤其是显性与隐性幽默,以促进深层次的推理能力。

技术框架:整体架构包括数据集构建、标注流程、模型训练与评估。数据集包含文本、图像和视频,涵盖多种语言和文化背景。

关键创新:最重要的创新在于引入了多模态和多语言的结合,特别是对有害幽默的深层分类,使得模型能够更好地理解文化背景和隐含意义。

关键设计:在数据集标注中,我们设定了严格的注释标准,并在模型训练中采用了多模态融合技术,确保模型能够有效处理不同类型的数据。

📊 实验亮点

实验结果表明,闭源模型在有害幽默检测中的表现显著优于开源模型,尤其在阿拉伯语和英语之间的性能差异达到20%以上。这一发现强调了文化背景对幽默理解的重要性,并指出了现有模型在多语言环境下的局限性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容审核、在线社区管理和自动化内容过滤系统。通过提高对有害幽默的检测能力,可以有效减少网络暴力和冒犯性内容的传播,提升用户体验和安全性。未来,该基准可能推动更广泛的文化和语言理解研究,促进跨文化交流的安全性。

📄 摘要(原文)

Dark humor often relies on subtle cultural nuances and implicit cues that require contextual reasoning to interpret, posing safety challenges that current static benchmarks fail to capture. To address this, we introduce a novel multimodal, multilingual benchmark for detecting and understanding harmful and offensive humor. Our manually curated dataset comprises 3,000 texts and 6,000 images in English and Arabic, alongside 1,200 videos that span English, Arabic, and language-independent (universal) contexts. Unlike standard toxicity datasets, we enforce a strict annotation guideline: distinguishing \emph{Safe} jokes from \emph{Harmful} ones, with the latter further classified into \emph{Explicit} (overt) and \emph{Implicit} (Covert) categories to probe deep reasoning. We systematically evaluate state-of-the-art (SOTA) open and closed-source models across all modalities. Our findings reveal that closed-source models significantly outperform open-source ones, with a notable difference in performance between the English and Arabic languages in both, underscoring the critical need for culturally grounded, reasoning-aware safety alignment. \textcolor{red}{Warning: this paper contains example data that may be offensive, harmful, or biased.}