Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs

📄 arXiv: 2502.20356v1 📥 PDF

作者: Kuan Lok Zhou, Jiayi Chen, Siddharth Suresh, Reuben Narad, Timothy T. Rogers, Lalit K Jain, Robert D Nowak, Bob Mankoff, Jifan Zhang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-27


💡 一句话要点

通过小规模人工对齐,LLM在专家级幽默排序任务中达到卓越性能

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幽默理解 大型语言模型 人工对齐 创造性内容 标题排序

📋 核心要点

  1. 现有LLM在理解和评估创造性内容(如幽默)方面存在显著差距,尤其是在复杂场景和文化背景下。
  2. 论文通过分解幽默理解为视觉、推理和偏好三个部分,并针对性地进行改进,提升LLM的幽默理解能力。
  3. 实验表明,通过小规模人工对齐,LLM在《纽约客》漫画标题排序任务中达到82.4%的准确率,媲美人类专家。

📝 摘要(中文)

大型语言模型(LLM)在理解创造性内容方面存在显著局限性,Hessel等人(2023)在《纽约客》漫画标题竞赛(NYCCC)中的工作证明了这一点。他们的研究揭示了LLM与人类在幽默理解方面的巨大差距,表明理解和评估创造性内容是人工智能发展的关键挑战。本文重新审视了这一挑战,将幽默理解分解为三个组成部分,并系统地改进每个部分:通过改进的标注增强视觉理解,利用LLM生成的幽默推理和解释,以及实施针对人类偏好数据的对齐。改进后的方法在标题排序中达到了82.4%的准确率,显著优于之前67%的基准,并与该领域世界知名的人类专家的表现相匹配。值得注意的是,虽然通过各种角色提示模仿子群体偏好的尝试效果甚微,但使用人群偏好进行模型微调却非常有效。这些发现表明,通过专注于特定子群体和个人的对齐,可以有效地解决LLM在创造性判断方面的局限性。最后,我们认为,实现通用人工智能需要系统地收集跨创造性领域的人类偏好数据。我们认为,正如人类的创造力深受个人和文化偏好的影响一样,使用多样化的人类偏好数据训练LLM对于发展真正的创造性理解至关重要。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在理解和评估创造性内容,特别是幽默内容方面的不足。现有方法难以有效捕捉幽默的复杂性和主观性,导致LLM在幽默理解任务中表现不佳,与人类专家存在显著差距。

核心思路:论文的核心思路是将幽默理解分解为三个关键组成部分:视觉理解、幽默推理和人类偏好。通过分别改进这三个方面,提升LLM对幽默的整体理解能力。具体而言,通过更精确的标注增强视觉理解,利用LLM生成幽默推理和解释,并通过人工对齐来适应人类的偏好。

技术框架:整体框架包含以下几个主要阶段:1) 数据增强:改进《纽约客》漫画标题竞赛(NYCCC)数据集的标注,提升视觉理解的质量。2) 幽默推理生成:利用LLM生成对漫画和标题之间幽默关系的解释和推理。3) 人工对齐:收集人类对不同标题的偏好数据,并使用这些数据对LLM进行微调。4) 评估:在NYCCC标题排序任务上评估模型的性能。

关键创新:论文的关键创新在于将幽默理解分解为多个可独立优化的组成部分,并针对每个部分采用不同的技术手段。此外,论文强调了人工对齐的重要性,表明通过小规模的人工对齐,可以显著提升LLM在幽默理解任务中的性能。与以往尝试通过prompt工程来模拟不同人群偏好的方法不同,论文直接使用人群偏好数据进行微调,效果更佳。

关键设计:在视觉理解方面,论文可能使用了更细粒度的图像标注方法,例如目标检测、场景图生成等。在幽默推理生成方面,论文可能使用了prompt工程或微调技术,引导LLM生成更具逻辑性和解释性的推理过程。在人工对齐方面,论文可能使用了pairwise ranking loss或其他适合排序任务的损失函数,并对LLM进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过改进的标注、幽默推理生成和人工对齐,LLM在《纽约客》漫画标题排序任务中达到了82.4%的准确率,显著优于之前的67%的基准,并与人类专家的表现相匹配。这表明,通过针对性的改进和人工对齐,可以有效提升LLM在创造性任务中的性能。

🎯 应用场景

该研究成果可应用于智能文娱领域,例如自动生成幽默文案、个性化推荐喜剧内容、辅助创作幽默作品等。此外,该研究强调的人工对齐方法也适用于其他创造性任务,例如音乐生成、艺术创作等,有助于提升AI在这些领域的表现。

📄 摘要(原文)

Large Language Models (LLMs) have shown significant limitations in understanding creative content, as demonstrated by Hessel et al. (2023)'s influential work on the New Yorker Cartoon Caption Contest (NYCCC). Their study exposed a substantial gap between LLMs and humans in humor comprehension, establishing that understanding and evaluating creative content is key challenge in AI development. We revisit this challenge by decomposing humor understanding into three components and systematically improve each: enhancing visual understanding through improved annotation, utilizing LLM-generated humor reasoning and explanations, and implementing targeted alignment with human preference data. Our refined approach achieves 82.4% accuracy in caption ranking, singificantly improving upon the previous 67% benchmark and matching the performance of world-renowned human experts in this domain. Notably, while attempts to mimic subgroup preferences through various persona prompts showed minimal impact, model finetuning with crowd preferences proved remarkably effective. These findings reveal that LLM limitations in creative judgment can be effectively addressed through focused alignment to specific subgroups and individuals. Lastly, we propose the position that achieving artificial general intelligence necessitates systematic collection of human preference data across creative domains. We advocate that just as human creativity is deeply influenced by individual and cultural preferences, training LLMs with diverse human preference data may be essential for developing true creative understanding.