Cards Against LLMs: Benchmarking Humor Alignment in Large Language Models
作者: Yousra Fettach, Guillaume Bied, Hannu Toivonen, Tijl De Bie
分类: cs.CL, cs.AI
发布日期: 2026-04-09
💡 一句话要点
评估LLM幽默感:使用“反对LLM的卡牌”基准测试模型与人类幽默偏好的一致性
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幽默感 对齐 基准测试 偏差分析
📋 核心要点
- 现有研究缺乏对LLM幽默感的深入评估,难以衡量模型在理解和生成幽默内容方面与人类的对齐程度。
- 该研究通过让LLM参与“反对人类的卡牌”游戏,评估其在选择最有趣回复时与人类玩家偏好的一致性。
- 实验结果表明,LLM在幽默感方面与人类偏好的一致性有限,且模型间的共识高于与人类的共识,揭示了潜在的偏差。
📝 摘要(中文)
幽默是人类交流中文化和社会意义最为重要的维度之一,但作为大型语言模型(LLM)对齐的一个维度,它在很大程度上仍未被探索。本研究中,五个前沿语言模型与人类玩家一起玩“反对人类的卡牌”(CAH)游戏。模型从9894轮游戏中,从十张候选卡牌中选择最有趣的回复。虽然所有模型都超过了随机基线,但与人类偏好的一致性仍然不高。更引人注目的是,模型之间达成一致的频率远高于它们与人类达成一致的频率。我们表明,这种偏好部分可以用系统的位置偏差和内容偏好来解释,从而引发了一个问题:LLM的幽默判断是否反映了真正的偏好,还是推理和对齐的结构性人为因素。
🔬 方法详解
问题定义:该论文旨在评估大型语言模型(LLM)在幽默感方面与人类的对齐程度。现有方法缺乏对LLM幽默感的有效评估,难以衡量模型是否真正理解并能生成符合人类幽默偏好的内容。现有的评估方法可能存在偏差,无法准确反映LLM的幽默理解能力。
核心思路:该论文的核心思路是将LLM置于“反对人类的卡牌”(Cards Against Humanity, CAH)游戏中,通过观察LLM选择的“最有趣”的卡牌是否与人类玩家的选择一致,来评估其幽默感。CAH游戏提供了一个结构化的环境,可以量化LLM对幽默的理解和偏好。
技术框架:整体框架包括以下步骤:1) 收集CAH游戏数据,包含问题卡和多个答案卡;2) 让LLM从答案卡中选择“最有趣”的卡牌;3) 将LLM的选择与人类玩家的选择进行比较,计算一致性得分;4) 分析LLM选择的偏差,例如位置偏差和内容偏好。使用了五个前沿的LLM模型。
关键创新:该研究的关键创新在于使用CAH游戏作为评估LLM幽默感的基准。CAH游戏的开放性和创造性,能够更全面地评估LLM在理解和生成幽默内容方面的能力。此外,该研究还深入分析了LLM选择的偏差,揭示了模型可能存在的结构性问题。与传统的基于文本生成的幽默评估方法相比,这种方法更具互动性和可解释性。
关键设计:研究使用了9894轮CAH游戏数据。每个模型需要从10张候选卡牌中选择一张。一致性得分的计算方式未知,但应该是衡量模型选择与人类选择一致程度的指标。研究分析了模型选择的位置偏差(例如,模型是否倾向于选择特定位置的卡牌)和内容偏好(例如,模型是否倾向于选择包含特定关键词的卡牌)。具体模型参数设置和损失函数未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有模型都超过了随机基线,但与人类偏好的一致性仍然不高。更重要的是,模型之间达成一致的频率远高于它们与人类达成一致的频率。研究发现,LLM的选择存在系统性的位置偏差和内容偏好,这表明模型的幽默判断可能受到结构性因素的影响,而非真正的幽默理解。
🎯 应用场景
该研究的成果可应用于提升LLM在对话系统、内容生成和社交机器人等领域的表现。通过更好地理解和模拟人类的幽默感,LLM可以生成更具吸引力和人情味的内容,从而改善用户体验。此外,该研究还可以帮助开发者识别和纠正LLM中存在的偏差,提高模型的公平性和可靠性。
📄 摘要(原文)
Humor is one of the most culturally embedded and socially significant dimensions of human communication, yet it remains largely unexplored as a dimension of Large Language Model (LLM) alignment. In this study, five frontier language models play the same Cards Against Humanity games (CAH) as human players. The models select the funniest response from a slate of ten candidate cards across 9,894 rounds. While all models exceed the random baseline, alignment with human preference remains modest. More striking is that models agree with each other substantially more often than they agree with humans. We show that this preference is partly explained by systematic position biases and content preferences, raising the question whether LLM humor judgment reflects genuine preference or structural artifacts of inference and alignment.