From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy

📄 arXiv: 2504.09049v1 📥 PDF

作者: Adrianna Romanowski, Pedro H. V. Valois, Kazuhiro Fukui

分类: cs.CL

发布日期: 2025-04-12

备注: Accepted to CMCL2025 @ NAACL

DOI: 10.18653/v1/2025.cmcl-1.6

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种评估LLM在单口喜剧幽默识别能力的新指标

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幽默识别 单口喜剧 评估指标 自然语言处理

📋 核心要点

  1. 现有方法难以准确评估LLM对幽默的理解,尤其是在单口喜剧这种具有复杂叙事的场景下。
  2. 提出一种模块化的幽默检测指标,结合模糊字符串匹配、句子嵌入和子空间相似性,全面评估LLM的幽默识别能力。
  3. 实验表明,即使是先进的LLM在幽默检测方面的表现也有限,但仍优于人类评估者,揭示了幽默理解的主观性和复杂性。

📝 摘要(中文)

喜剧深刻地反映了我们所处的时代,是人际互动的重要组成部分。随着大型语言模型(LLM)的广泛应用,幽默与人工智能的交叉变得至关重要。人机交互自然性的进步与AI系统理解幽默能力的提高相关。本研究评估了模型从单口喜剧文本中准确识别幽默引语的能力。单口喜剧独特的喜剧叙事使其成为提高喜剧理解整体自然性的理想数据集。我们提出了一种新颖的幽默检测指标,旨在评估LLM在各种提示下提取幽默妙语的能力。该指标具有模块化结构,提供三种不同的评分方法——模糊字符串匹配、句子嵌入和子空间相似性——以提供对模型性能的全面评估。模型的结果与人类评估者在同一任务上的结果进行比较。我们的指标显示,无论提示工程如何,领先的模型ChatGPT、Claude和DeepSeek在幽默检测方面的得分最多为51%。值得注意的是,这一表现超过了人类评估者41%的得分。对人类评估者和LLM的分析揭示了协议的可变性,突出了幽默固有的主观性以及从现场表演文本中提取幽默引语所涉及的复杂性。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在理解和识别单口喜剧中幽默的能力。现有方法缺乏针对喜剧语境的细粒度评估指标,难以准确衡量LLM对幽默的把握程度。单口喜剧的文本具有上下文依赖性强、表达方式多样等特点,给LLM的幽默识别带来了挑战。

核心思路:论文的核心思路是设计一个模块化的幽默检测指标,该指标能够从多个维度评估LLM提取幽默妙语的能力。通过将LLM的输出与人工标注的幽默语句进行比较,并采用不同的评分方法,从而更全面地了解LLM在幽默理解方面的优势和不足。这种方法的设计考虑了幽默的主观性和复杂性,力求提供一个更客观、更可靠的评估框架。

技术框架:该指标的整体框架包含以下几个主要模块:1) 数据准备:收集单口喜剧文本,并由人工标注幽默语句作为ground truth。2) LLM推理:使用不同的prompt引导LLM从文本中提取幽默语句。3) 评分模块:该模块包含三种评分方法:a) 模糊字符串匹配:计算LLM输出与ground truth之间的字符串相似度。b) 句子嵌入:将LLM输出和ground truth编码为句子嵌入,并计算嵌入向量之间的相似度。c) 子空间相似性:通过比较LLM输出和ground truth的子空间表示来评估相似度。4) 综合评估:将三种评分方法的结果进行综合,得到最终的幽默检测得分。

关键创新:该论文的关键创新在于提出了一个模块化的幽默检测指标,该指标能够从多个角度评估LLM的幽默理解能力。与传统的基于精确匹配的评估方法不同,该指标考虑了幽默的主观性和表达方式的多样性,采用了模糊字符串匹配、句子嵌入和子空间相似性等多种技术手段,从而更全面地评估LLM的性能。此外,该指标的模块化设计使其具有良好的可扩展性,可以方便地添加新的评分方法。

关键设计:在评分模块中,模糊字符串匹配采用了Levenshtein距离等算法来计算字符串之间的相似度。句子嵌入使用了预训练的语言模型(如BERT、RoBERTa)来生成句子嵌入向量,并使用余弦相似度来计算向量之间的相似度。子空间相似性则通过主成分分析(PCA)等方法来提取文本的子空间表示,并计算子空间之间的相似度。此外,论文还对不同的prompt进行了实验,以评估prompt工程对LLM性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是先进的LLM(如ChatGPT、Claude和DeepSeek)在幽默检测方面的得分最多为51%,虽然低于人类的完美水平,但仍然超过了人类评估者41%的得分。这表明LLM在一定程度上能够理解幽默,但仍有很大的提升空间。此外,实验还发现,不同的prompt对LLM的性能有显著影响,提示工程在幽默理解方面起着重要作用。

🎯 应用场景

该研究成果可应用于提升AI在人机交互中的自然性和趣味性,例如在智能客服、聊天机器人等应用中,使AI能够更好地理解和回应用户的幽默,从而提高用户体验。此外,该指标也可用于评估和改进LLM的喜剧创作能力,促进AI在娱乐领域的应用。未来,该研究还可以扩展到其他类型的幽默,例如讽刺、双关语等。

📄 摘要(原文)

Comedy serves as a profound reflection of the times we live in and is a staple element of human interactions. In light of the widespread adoption of Large Language Models (LLMs), the intersection of humor and AI has become no laughing matter. Advancements in the naturalness of human-computer interaction correlates with improvements in AI systems' abilities to understand humor. In this study, we assess the ability of models in accurately identifying humorous quotes from a stand-up comedy transcript. Stand-up comedy's unique comedic narratives make it an ideal dataset to improve the overall naturalness of comedic understanding. We propose a novel humor detection metric designed to evaluate LLMs amongst various prompts on their capability to extract humorous punchlines. The metric has a modular structure that offers three different scoring methods - fuzzy string matching, sentence embedding, and subspace similarity - to provide an overarching assessment of a model's performance. The model's results are compared against those of human evaluators on the same task. Our metric reveals that regardless of prompt engineering, leading models, ChatGPT, Claude, and DeepSeek, achieve scores of at most 51% in humor detection. Notably, this performance surpasses that of humans who achieve a score of 41%. The analysis of human evaluators and LLMs reveals variability in agreement, highlighting the subjectivity inherent in humor and the complexities involved in extracting humorous quotes from live performance transcripts. Code available at https://github.com/swaggirl9000/humor.