Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics
作者: Yuriel Ryan, Rui Yang Tan, Kenny Tsu Wei Choo, Roy Ka-Wei Lee
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-09-12 (更新: 2025-09-17)
备注: 27 pages, 8 figures, EMNLP 2025 Findings
💡 一句话要点
提出PixelHumor基准数据集,评估大型多模态模型对在线漫画幽默的理解能力
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 幽默理解 漫画理解 基准数据集 叙事推理 视觉文本融合 大型语言模型
📋 核心要点
- 现有大型多模态模型在理解幽默和叙事连贯性方面存在明显不足,无法有效整合视觉和文本信息。
- PixelHumor数据集通过多面板漫画,提供了一个评估模型理解多模态幽默和叙事序列能力的基准。
- 实验结果表明,即使是最先进的模型在漫画面板排序任务上的表现也远低于人类水平,揭示了模型的局限性。
📝 摘要(中文)
理解幽默是社交智能的核心,但对于大型多模态模型(LMMs)来说仍然是一个巨大的挑战。我们引入了PixelHumor,这是一个包含2800个带注释的多面板漫画的基准数据集,旨在评估LMMs解释多模态幽默和识别叙事序列的能力。对最先进的LMMs的实验表明存在显著差距:例如,顶级模型在面板排序中的准确率仅为61%,远低于人类的表现。这突显了当前模型在整合视觉和文本线索以实现连贯叙事和幽默理解方面的关键局限性。通过为评估多模态上下文和叙事推理提供一个严格的框架,PixelHumor旨在推动LMMs的发展,使其更好地参与自然、具有社会意识的互动。
🔬 方法详解
问题定义:论文旨在解决大型多模态模型(LMMs)在理解在线漫画中的幽默和叙事连贯性方面的不足。现有方法难以有效整合漫画中的视觉和文本信息,导致无法准确识别幽默点和理解故事发展。
核心思路:论文的核心思路是构建一个专门用于评估LMMs幽默理解能力的基准数据集PixelHumor。该数据集包含大量带注释的多面板漫画,通过评估模型在面板排序等任务上的表现,来衡量其对幽默和叙事的理解程度。这样可以更直接地测试模型对上下文和叙事推理的能力。
技术框架:PixelHumor数据集包含2800个多面板漫画,每个漫画都经过人工标注,包括面板顺序、幽默类型等信息。研究人员使用该数据集对多个最先进的LMMs进行评估,主要关注模型在面板排序任务上的准确率。通过对比不同模型的表现,以及模型与人类表现的差距,来分析LMMs在幽默理解方面的能力。
关键创新:PixelHumor数据集是该研究的关键创新点。它专门针对多模态幽默理解而设计,包含大量真实世界的在线漫画,并提供了详细的标注信息。与现有数据集相比,PixelHumor更侧重于评估模型对上下文和叙事推理的能力,这对于理解幽默至关重要。
关键设计:数据集的关键设计在于选择了多面板漫画作为评估对象,因为漫画的幽默往往依赖于多个面板之间的关系和叙事发展。面板排序任务是评估模型理解叙事连贯性的关键指标。此外,数据集还包含了对幽默类型的标注,可以用于更细粒度的分析。
📊 实验亮点
实验结果表明,即使是最先进的LMMs在PixelHumor数据集上的表现也远低于人类水平。例如,顶级模型在面板排序任务上的准确率仅为61%,而人类的准确率接近100%。这表明当前LMMs在整合视觉和文本信息以理解幽默和叙事方面存在显著差距,为未来的研究提供了明确的方向。
🎯 应用场景
该研究成果可应用于提升聊天机器人、虚拟助手等AI系统的情感理解能力,使其能够更好地理解和回应人类的幽默。此外,该数据集也可用于训练更具创造力的AI模型,例如能够生成幽默故事或漫画的AI系统。未来,该研究有望推动人机交互更加自然和流畅。
📄 摘要(原文)
Understanding humor is a core aspect of social intelligence, yet it remains a significant challenge for Large Multimodal Models (LMMs). We introduce PixelHumor, a benchmark dataset of 2,800 annotated multi-panel comics designed to evaluate LMMs' ability to interpret multimodal humor and recognize narrative sequences. Experiments with state-of-the-art LMMs reveal substantial gaps: for instance, top models achieve only 61% accuracy in panel sequencing, far below human performance. This underscores critical limitations in current models' integration of visual and textual cues for coherent narrative and humor understanding. By providing a rigorous framework for evaluating multimodal contextual and narrative reasoning, PixelHumor aims to drive the development of LMMs that better engage in natural, socially aware interactions.