Oogiri-Master: Benchmarking Humor Understanding via Oogiri

📄 arXiv: 2512.21494v1 📥 PDF

作者: Soichiro Murakami, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura

分类: cs.CL, cs.AI

发布日期: 2025-12-25


💡 一句话要点

Oogiri-Master:通过大喜利游戏基准测试语言模型的幽默理解能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幽默理解 大型语言模型 基准测试 大喜利 创造性思维

📋 核心要点

  1. 现有幽默理解数据集规模小,评分易受流行度影响,缺乏客观可比的趣味性指标。
  2. 提出Oogiri-Master基准和Oogiri-Corpus数据集,包含大量候选答案和独立人类评分,减少偏差。
  3. 实验表明,先进LLM在Oogiri-Master上接近人类水平,洞察增强提示可进一步提升模型性能。

📝 摘要(中文)

本文通过日本创意问答游戏“大喜利”研究了大型语言模型(LLM)中类人创造性思维的幽默理解能力。作者提出了一个研究问题:是什么使这些回答对人类来说很有趣?为了解决现有方法在评估幽默理解方面的局限性,作者引入了Oogiri-Master和Oogiri-Corpus,这是一个旨在对LLM中的幽默理解进行严格评估的基准和数据集。每个提示都配有大约100个不同的候选答案,并且由大约100名人类评委独立评分,且无法访问其他人的评分,从而减少了受欢迎程度偏差并实现了稳健的聚合。使用Oogiri-Corpus,作者对与趣味性相关的语言因素(如文本长度、歧义和不协调解决)进行了定量分析,并推导出了用于预测人类判断的客观指标。随后,作者在Oogiri-Master中对一系列LLM和人类基线进行了基准测试,表明最先进的模型接近人类的表现,并且洞察力增强的提示可以提高模型性能。研究结果为评估和提升LLM中的幽默理解能力提供了原则性基础。

🔬 方法详解

问题定义:论文旨在解决如何可靠地评估大型语言模型(LLM)的幽默理解能力的问题。现有数据集的不足之处在于:每个提示的候选答案数量有限,评分过程容易受到流行度信号的影响,并且缺乏客观且可比较的趣味性指标,导致难以对LLM的幽默理解能力进行有效评估。

核心思路:论文的核心思路是通过构建一个高质量的大喜利数据集和基准测试,来克服现有数据集的局限性。大喜利是一种日本的创意问答游戏,非常适合用于评估幽默理解能力。通过收集大量候选答案并进行独立的人工评分,可以减少偏差并获得更可靠的趣味性评估。

技术框架:该研究主要包含两个部分:Oogiri-Corpus数据集的构建和Oogiri-Master基准测试的建立。Oogiri-Corpus包含大量的大喜利问答对,每个问题对应约100个不同的答案,并由约100名人类评委独立评分。Oogiri-Master则利用Oogiri-Corpus作为评估LLM幽默理解能力的基准。研究人员还分析了与趣味性相关的语言因素,并开发了客观的趣味性预测指标。

关键创新:该研究的关键创新在于:1) 构建了一个大规模、高质量的大喜利数据集Oogiri-Corpus,解决了现有数据集规模小、偏差大的问题。2) 提出了Oogiri-Master基准测试,为LLM的幽默理解能力评估提供了一个可靠的平台。3) 对与趣味性相关的语言因素进行了定量分析,并开发了客观的趣味性预测指标。

关键设计:在数据收集方面,作者尽可能收集多样化的答案,并确保评分过程的独立性,以减少偏差。在模型评估方面,作者使用了多种LLM和人类基线进行比较,并采用了洞察力增强的提示方法来提高模型性能。具体的参数设置、损失函数和网络结构等细节在论文中没有详细描述,属于未知信息。

📊 实验亮点

实验结果表明,最先进的LLM在Oogiri-Master基准测试中可以接近人类的表现。通过使用洞察力增强的提示方法,可以进一步提高模型性能。例如,某些模型在经过特定提示优化后,其趣味性评分与人类评分之间的相关性显著提高。具体的性能提升幅度取决于所使用的模型和提示策略。

🎯 应用场景

该研究成果可应用于开发更具创造性和人情味的AI系统,例如聊天机器人、内容生成工具和娱乐应用。通过提升AI的幽默理解能力,可以改善人机交互体验,并为用户提供更个性化和有趣的服务。此外,该研究也有助于理解人类幽默的本质,为认知科学和心理学研究提供参考。

📄 摘要(原文)

Humor is a salient testbed for human-like creative thinking in large language models (LLMs). We study humor using the Japanese creative response game Oogiri, in which participants produce witty responses to a given prompt, and ask the following research question: What makes such responses funny to humans? Previous work has offered only limited reliable means to answer this question. Existing datasets contain few candidate responses per prompt, expose popularity signals during ratings, and lack objective and comparable metrics for funniness. Thus, we introduce Oogiri-Master and Oogiri-Corpus, which are a benchmark and dataset designed to enable rigorous evaluation of humor understanding in LLMs. Each prompt is paired with approximately 100 diverse candidate responses, and funniness is rated independently by approximately 100 human judges without access to others' ratings, reducing popularity bias and enabling robust aggregation. Using Oogiri-Corpus, we conduct a quantitative analysis of the linguistic factors associated with funniness, such as text length, ambiguity, and incongruity resolution, and derive objective metrics for predicting human judgments. Subsequently, we benchmark a range of LLMs and human baselines in Oogiri-Master, demonstrating that state-of-the-art models approach human performance and that insight-augmented prompting improves the model performance. Our results provide a principled basis for evaluating and advancing humor understanding in LLMs.