Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models

📄 arXiv: 2510.18454v1 📥 PDF

作者: Atharvan Dogra, Soumya Suvra Ghosal, Ameet Deshpande, Ashwin Kalyan, Dinesh Manocha

分类: cs.CL

发布日期: 2025-10-21


💡 一句话要点

评估幽默生成中的刻板印象与毒性对安全性的影响

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幽默生成 刻板印象 毒性内容 信息论分析 偏见放大 安全性评估

📋 核心要点

  1. 现有大型语言模型在幽默生成中存在安全性隐患,尤其是有害内容的生成与评估之间的偏见放大问题。
  2. 本文提出通过信息论指标分析幽默生成中的刻板印象与毒性,揭示其对幽默评分的影响机制。
  3. 实验结果表明,刻板印象和毒性笑话的幽默评分提升显著,且在多种模型中均表现出一致性,验证了研究假设。

📝 摘要(中文)

随着大型语言模型在创意写作和互动内容中的广泛应用,输出的安全性问题日益突出。本文将幽默生成作为测试平台,评估现代语言模型中幽默优化与有害内容之间的关系,联合测量幽默性、刻板印象和毒性。通过信息论指标分析不协调信号,发现有害输出在幽默评分上更高,并在角色提示下进一步增强,表明生成器与评估器之间存在偏见放大循环。外部验证显示,语言模型生成的讽刺内容增加了刻板印象和毒性,且在多个模型中,刻板/有毒笑话的幽默评分提升显著。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在幽默生成中可能产生的有害内容问题,现有方法未能有效识别和控制幽默与毒性之间的关系。

核心思路:通过将幽默生成视为测试平台,联合测量幽默性、刻板印象和毒性,分析其相互影响,揭示偏见放大机制。

技术框架:整体流程包括幽默生成、刻板印象和毒性评估三个主要模块,使用信息论指标分析不协调信号,评估生成内容的安全性。

关键创新:最重要的创新在于揭示了幽默生成中有害内容的偏见放大循环,表明生成器与评估器之间的相互作用影响了输出的安全性。

关键设计:采用信息论指标作为分析工具,设置了多种角色提示以测试其对幽默评分的影响,确保了实验的全面性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,刻板印象和毒性笑话的幽默评分提升了10%至21%,而在被人类评估为有趣的生成内容中,刻板笑话出现频率提高了11%至28%。这些数据表明,幽默生成中的有害内容问题亟需关注。

🎯 应用场景

该研究的潜在应用领域包括内容生成、社交媒体平台和在线社区等,能够帮助开发更安全的语言模型,减少有害内容的生成。未来,研究成果可为语言模型的安全性评估提供理论基础和实践指导,推动相关技术的健康发展。

📄 摘要(原文)

Large language models are increasingly used for creative writing and engagement content, raising safety concerns about the outputs. Therefore, casting humor generation as a testbed, this work evaluates how funniness optimization in modern LLM pipelines couples with harmful content by jointly measuring humor, stereotypicality, and toxicity. This is further supplemented by analyzing incongruity signals through information-theoretic metrics. Across six models, we observe that harmful outputs receive higher humor scores which further increase under role-based prompting, indicating a bias amplification loop between generators and evaluators. Information-theoretic analyses show harmful cues widen predictive uncertainty and surprisingly, can even make harmful punchlines more expected for some models, suggesting structural embedding in learned humor distributions. External validation on an additional satire-generation task with human perceived funniness judgments shows that LLM satire increases stereotypicality and typically toxicity, including for closed models. Quantitatively, stereotypical/toxic jokes gain $10-21\%$ in mean humor score, stereotypical jokes appear $11\%$ to $28\%$ more often among the jokes marked funny by LLM-based metric and up to $10\%$ more often in generations perceived as funny by humans.