Dark & Stormy: Modeling Humor in the Worst Sentences Ever Written

📄 arXiv: 2510.24538v1 📥 PDF

作者: Venkata S Govindarajan, Laura Biester

分类: cs.CL

发布日期: 2025-10-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出新方法以分析英语中的糟糕幽默

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 幽默检测 文本分析 自然语言处理 文学手法 生成模型

📋 核心要点

  1. 现有的幽默检测模型在处理糟糕幽默时表现不佳,无法有效识别和分析此类文本。
  2. 本文通过整理Bulwer-Lytton比赛的句子,提出了一种新的分析方法,旨在深入理解糟糕幽默的特征。
  3. 实验结果表明,标准模型在新语料库上的性能显著低于预期,且生成模型在句子形式上模仿成功但效果夸张。

📝 摘要(中文)

文本幽默的多样性极为丰富,计算研究需要考虑这一范围,包括故意的糟糕幽默。本文整理并分析了来自Bulwer-Lytton小说比赛的新语料库,以更好地理解英语中的“糟糕”幽默。标准幽默检测模型在我们的语料库上表现不佳,文学手法分析发现这些句子结合了现有幽默数据集中常见的特征(如双关语、讽刺)与隐喻、元小说和明喻。被提示生成比赛风格句子的LLM模仿形式,但通过过度使用某些文学手法和包含更多新颖的形容词-名词双字组来夸大效果。数据、代码和分析可在https://github.com/venkatasg/bulwer-lytton获取。

🔬 方法详解

问题定义:本文旨在解决现有幽默检测模型在处理糟糕幽默时的不足,尤其是在识别和分析特定文学手法方面的挑战。

核心思路:通过构建和分析一个新的语料库,聚焦于Bulwer-Lytton比赛的句子,探索糟糕幽默的特征和表现形式,以此改进幽默检测模型的效果。

技术框架:研究首先整理了Bulwer-Lytton比赛的句子,接着分析了这些句子中的文学手法,最后通过大型语言模型(LLM)生成类似句子进行对比实验。

关键创新:最重要的创新在于提出了一个专注于糟糕幽默的新语料库,并通过分析其文学特征,揭示了与传统幽默数据集的本质区别。

关键设计:在实验中,使用了特定的提示设计来引导LLM生成句子,并分析了生成句子中的形容词-名词双字组的使用频率与人类作者的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,标准幽默检测模型在新语料库上的准确率显著低于传统数据集,且生成的句子在文学手法的使用上表现出过度夸张,尤其是在形容词-名词双字组的使用频率上,远超人类作者的水平。

🎯 应用场景

该研究的潜在应用领域包括幽默生成、文本分析和自然语言处理等。通过深入理解糟糕幽默的特征,可以为幽默相关的AI应用提供更好的模型支持,提升用户体验和互动效果。未来,该研究可能影响幽默创作、社交媒体内容生成等多个领域。

📄 摘要(原文)

Textual humor is enormously diverse and computational studies need to account for this range, including intentionally bad humor. In this paper, we curate and analyze a novel corpus of sentences from the Bulwer-Lytton Fiction Contest to better understand "bad" humor in English. Standard humor detection models perform poorly on our corpus, and an analysis of literary devices finds that these sentences combine features common in existing humor datasets (e.g., puns, irony) with metaphor, metafiction and simile. LLMs prompted to synthesize contest-style sentences imitate the form but exaggerate the effect by over-using certain literary devices, and including far more novel adjective-noun bigrams than human writers. Data, code and analysis are available at https://github.com/venkatasg/bulwer-lytton