V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs

📄 arXiv: 2509.25773v1 📥 PDF

作者: Zhengpeng Shi, Hengli Li, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-30


💡 一句话要点

提出V-HUB:一个以视觉为中心的视频幽默理解基准,用于评估视频大语言模型

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频幽默理解 多模态学习 视觉推理 大语言模型 评估基准

📋 核心要点

  1. 现有MLLM在理解视频幽默方面存在不足,尤其是在缺乏明确语言线索的情况下,难以捕捉视觉幽默的微妙之处。
  2. V-HUB基准通过提供大量带有详细注释的无声视频,旨在促进MLLM对纯视觉幽默的理解和推理能力。
  3. 实验表明,现有MLLM在V-HUB上表现不佳,尤其是在仅依赖视觉信息时,性能显著下降,表明该领域仍有提升空间。

📝 摘要(中文)

为了评估和诊断多模态大语言模型(MLLMs)理解幽默的能力,我们提出了v-HUB,这是一个新颖的、以视觉为中心的视频幽默理解基准。v-HUB包含精选的、极少口头表达的短视频,这些视频来源于经典默片和在线资源,反映了仅通过视觉线索就能欣赏幽默的真实场景。每个视频片段都配有丰富的注释,包括字幕、描述和解释,支持字幕匹配和幽默解释等评估任务。为了扩大其适用性,我们进一步构建了一个开放式的视频问答任务,使其易于集成到现有的视频理解基准中。我们评估了各种MLLM,从专门的Video-LLM到可以处理音频的通用OmniLLM,涵盖了开源和专有领域。实验结果揭示了MLLM在仅从视觉线索理解幽默方面面临的困难。例如,所有模型在从基于文本的评估转向基于视频的评估(没有音频)时,字幕匹配的性能都显著下降。我们的研究结果还表明,结合音频有助于视频幽默理解,突出了声音的信息量以及整合更丰富的模态以进行复杂视频理解任务的前景。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在理解视频幽默方面的能力评估问题。现有方法主要依赖于文本信息,忽略了视觉幽默的重要性,并且缺乏专门针对视觉幽默的评估基准。这导致了MLLMs在理解仅通过视觉线索表达的幽默时表现不佳。

核心思路:论文的核心思路是构建一个以视觉为中心的视频幽默理解基准(V-HUB),该基准包含大量精选的、极少口头表达的短视频,这些视频来源于经典默片和在线资源。通过提供丰富的视觉信息和相应的注释,V-HUB旨在促进MLLMs对纯视觉幽默的理解和推理能力。

技术框架:V-HUB基准主要包含以下几个部分:1) 数据收集与筛选:从经典默片和在线资源中收集短视频,并进行筛选,确保视频内容具有幽默性且主要通过视觉线索表达。2) 数据标注:为每个视频片段提供丰富的注释,包括字幕、描述和解释,以支持不同的评估任务。3) 评估任务设计:设计了字幕匹配和幽默解释等评估任务,用于评估MLLMs的幽默理解能力。此外,还构建了一个开放式的视频问答任务,使其易于集成到现有的视频理解基准中。4) 模型评估:使用各种MLLM,包括专门的Video-LLM和可以处理音频的通用OmniLLM,在V-HUB上进行评估。

关键创新:V-HUB的关键创新在于其以视觉为中心的特性。与现有基准主要依赖于文本信息不同,V-HUB专注于评估MLLMs在仅通过视觉线索理解幽默方面的能力。这使得V-HUB能够更准确地评估MLLMs的视觉幽默理解能力,并促进该领域的研究进展。

关键设计:V-HUB的关键设计包括:1) 视频选择:选择极少口头表达的短视频,以确保幽默主要通过视觉线索表达。2) 注释丰富性:提供字幕、描述和解释等多种类型的注释,以支持不同的评估任务。3) 评估任务多样性:设计了字幕匹配、幽默解释和视频问答等多种评估任务,以全面评估MLLMs的幽默理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在V-HUB上表现不佳,尤其是在仅依赖视觉信息时,字幕匹配的性能显著下降。例如,所有模型在从基于文本的评估转向基于视频的评估(没有音频)时,性能都明显降低。此外,研究还发现,结合音频信息可以显著提升视频幽默理解的性能,表明声音在幽默理解中扮演着重要角色。

🎯 应用场景

该研究成果可应用于提升人机交互的趣味性和自然性,例如在虚拟助手、社交机器人等领域,使AI能够更好地理解人类情感,从而提供更个性化和更具吸引力的服务。此外,该基准也有助于推动视频内容分析、情感识别等领域的发展。

📄 摘要(原文)

AI models capable of comprehending humor hold real-world promise -- for example, enhancing engagement in human-machine interactions. To gauge and diagnose the capacity of multimodal large language models (MLLMs) for humor understanding, we introduce v-HUB, a novel visual-centric video humor understanding benchmark. v-HUB comprises a curated collection of minimally verbal short videos, sourced from classic silent films and online resources, and reflecting real-world scenarios where humor can be appreciated purely through visual cues. Each video clip is paired with rich annotations, including captions, descriptions, and explanations, supporting evaluation tasks like caption matching and humor explanation. To broaden its applicability, we further construct an open-ended video QA task, making it readily integrable into existing video understanding benchmarks. We evaluate a diverse set of MLLMs, from specialized Video-LLMs to versatile OmniLLMs that can process audio, covering both open-source and proprietary domains. The experimental results expose the difficulties MLLMs face in comprehending humor from visual cues alone. For example, all models exhibit a marked performance drop on caption matching when moving from text-based to video-based evaluation (without audio). Our findings also demonstrate that incorporating audio helps with video humor understanding, highlighting the informativeness of sound and the promise of integrating richer modalities for complex video understanding tasks.