Chumor 2.0: Towards Benchmarking Chinese Humor Understanding
作者: Ruiqi He, Yushu He, Longju Bai, Jiarui Liu, Zhenjie Sun, Zenghao Tang, He Wang, Hanchen Xia, Rada Mihalcea, Naihao Deng
分类: cs.CL, cs.AI
发布日期: 2024-12-23
备注: arXiv admin note: substantial text overlap with arXiv:2406.12754
🔗 代码/项目: GITHUB | HUGGINGFACE | HUGGINGFACE | PROJECT_PAGE
💡 一句话要点
构建大规模中文幽默解释数据集Chumor 2.0,用于评估和提升LLM的中文幽默理解能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文幽默理解 大型语言模型 数据集构建 幽默解释 自然语言处理
📋 核心要点
- 现有幽默数据集主要集中在英语,缺乏对中文等文化背景复杂的语言的幽默理解资源。
- 构建大规模中文幽默解释数据集Chumor,包含来自“弱智吧”的智力挑战性和文化特定性的笑话。
- 实验表明,现有LLM在Chumor数据集上的表现远低于人类水平,突显了中文幽默理解的挑战性。
📝 摘要(中文)
现有的幽默数据集和评估主要集中在英语上,对于像中文这样具有文化细微差别的非英语语言的幽默资源有限。为了解决这个问题,我们构建了Chumor,这是第一个中文幽默解释数据集,其规模超过了现有的幽默数据集。Chumor的数据来源于“弱智吧”,这是一个类似于中国Reddit的平台,以分享具有智力挑战性和文化特定性的笑话而闻名。我们通过直接提示和思维链提示测试了十个大型语言模型(LLM),结果表明Chumor对现有的LLM提出了重大挑战,它们的准确率略高于随机水平,远低于人类水平。此外,我们的分析表明,人工标注的幽默解释明显优于GPT-4o和ERNIE-4-turbo生成的解释。我们发布了Chumor数据集,项目主页,排行榜和代码库。
🔬 方法详解
问题定义:论文旨在解决中文幽默理解领域缺乏大规模数据集的问题。现有方法,特别是针对英文幽默设计的模型,在处理具有复杂文化背景和语言特点的中文幽默时表现不佳,难以准确理解和解释其中的幽默元素。
核心思路:论文的核心思路是通过构建一个大规模的、高质量的中文幽默解释数据集,为训练和评估LLM的中文幽默理解能力提供基础。数据集的构建侧重于收集具有挑战性和文化特定性的笑话,并提供人工标注的幽默解释,从而帮助模型学习理解中文幽默的深层含义。
技术框架:该研究主要包含数据集构建和模型评估两个阶段。数据集构建阶段包括从“弱智吧”平台收集笑话,进行数据清洗和筛选,并由人工标注人员提供幽默解释。模型评估阶段则使用构建的Chumor数据集,通过直接提示和思维链提示等方法,对多个LLM进行测试,并分析其在幽默理解和解释方面的表现。
关键创新:该论文的关键创新在于构建了第一个大规模的中文幽默解释数据集Chumor。与现有数据集相比,Chumor更注重中文幽默的文化背景和语言特点,包含了大量具有智力挑战性和文化特定性的笑话。此外,论文还对多个LLM在Chumor数据集上的表现进行了深入分析,揭示了现有模型在中文幽默理解方面的不足。
关键设计:数据集的构建过程中,研究人员精心设计了数据收集和标注流程,以确保数据集的质量和多样性。在模型评估方面,采用了直接提示和思维链提示等多种方法,以全面评估LLM的幽默理解能力。此外,论文还对人工标注的幽默解释和模型生成的解释进行了对比分析,以深入了解模型在幽默理解方面的差距。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在Chumor数据集上的准确率仅略高于随机水平,远低于人类水平。人工标注的幽默解释明显优于GPT-4o和ERNIE-4-turbo生成的解释,突显了现有模型在中文幽默理解方面的不足,以及Chumor数据集的挑战性和价值。
🎯 应用场景
该研究成果可应用于开发更智能的中文对话系统、社交媒体内容审核工具和个性化推荐系统。通过提升LLM对中文幽默的理解能力,可以改善人机交互体验,提高内容审核的准确性,并为用户提供更符合其文化背景和兴趣的内容推荐。
📄 摘要(原文)
Existing humor datasets and evaluations predominantly focus on English, leaving limited resources for culturally nuanced humor in non-English languages like Chinese. To address this gap, we construct Chumor, the first Chinese humor explanation dataset that exceeds the size of existing humor datasets. Chumor is sourced from Ruo Zhi Ba, a Chinese Reddit-like platform known for sharing intellectually challenging and culturally specific jokes. We test ten LLMs through direct and chain-of-thought prompting, revealing that Chumor poses significant challenges to existing LLMs, with their accuracy slightly above random and far below human. In addition, our analysis highlights that human-annotated humor explanations are significantly better than those generated by GPT-4o and ERNIE-4-turbo. We release Chumor at https://huggingface.co/datasets/dnaihao/Chumor, our project page is at https://dnaihao.github.io/Chumor-dataset/, our leaderboard is at https://huggingface.co/spaces/dnaihao/Chumor, and our codebase is at https://github.com/dnaihao/Chumor-dataset.