I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes

📄 arXiv: 2603.23229v1 📥 PDF

作者: Shijia Zhou, Saif M. Mohammad, Barbara Plank, Diego Frassinelli

分类: cs.CL

发布日期: 2026-03-24

备注: LREC 2026, 18 pages, 10 figures


💡 一句话要点

评估多模态大语言模型在理解表情包中隐喻含义的能力,揭示其在多模态推理上的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 表情包理解 隐喻识别 社交媒体分析

📋 核心要点

  1. 现有方法缺乏对多模态大语言模型在理解表情包中隐喻含义能力的系统评估,阻碍了模型在社交媒体内容理解上的应用。
  2. 该论文通过构建基准数据集,并对多个最先进的MLLM进行评估,旨在深入了解模型如何结合视觉和文本信息来识别隐喻意义。
  3. 实验结果表明,现有MLLM在识别表情包中的隐喻含义时存在偏差,并且即使预测正确,其解释也可能不忠实于原始内容。

📝 摘要(中文)

互联网表情包是一种流行的多模态在线交流形式,通常通过文本和图像的结合使用比喻元素来传达深层含义。然而,多模态大型语言模型(MLLM)如何结合和解释视觉和文本信息以识别表情包中的比喻意义,在很大程度上仍不清楚。为了解决这一差距,我们评估了八个最先进的生成式MLLM在三个数据集上的能力,以检测和解释六种类型的比喻意义。此外,我们对这些MLLM生成的解释进行了人工评估,评估所提供的推理是否支持预测的标签,以及它是否忠实于原始表情包内容。我们的研究结果表明,所有模型都表现出强烈的偏见,即将表情包与比喻意义联系起来,即使不存在这种意义。定性分析进一步表明,正确的预测并不总是伴随着忠实的解释。

🔬 方法详解

问题定义:论文旨在评估多模态大语言模型(MLLMs)理解互联网表情包中比喻含义的能力。现有方法缺乏对MLLMs在多模态情境下理解隐喻含义的系统性评估,尤其是在文本和图像结合的复杂场景中。现有模型的痛点在于难以准确捕捉表情包中蕴含的深层语义,容易产生误判或不忠实的解释。

核心思路:论文的核心思路是通过构建包含多种比喻类型的表情包数据集,并设计相应的评估指标,来系统性地测试MLLMs在理解和解释比喻含义方面的能力。通过分析模型的预测结果和生成的解释,揭示模型在多模态推理方面的优势和不足。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:收集并标注包含六种比喻类型的表情包数据;2) 模型选择:选取八个最先进的生成式MLLMs进行评估;3) 评估指标设计:设计用于评估模型预测准确性和解释忠实度的指标;4) 实验分析:分析模型的预测结果和生成的解释,并进行人工评估。

关键创新:该论文的关键创新在于:1) 首次针对MLLMs在理解表情包中比喻含义的能力进行了系统性评估;2) 构建了一个包含多种比喻类型的表情包数据集,为后续研究提供了基准;3) 提出了评估模型解释忠实度的指标,弥补了现有研究的不足。与现有方法相比,该研究更注重对模型推理过程的分析,而不仅仅是预测结果的准确性。

关键设计:论文的关键设计包括:1) 数据集的构建,确保涵盖多种比喻类型,并进行高质量的人工标注;2) 评估指标的设计,既考虑了预测的准确性,也考虑了解释的忠实度;3) 对模型生成的解释进行人工评估,以验证模型推理的合理性。具体的参数设置、损失函数、网络结构等技术细节取决于所选取的MLLMs,论文侧重于对这些模型的评估和分析,而非提出新的模型结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有被评估的MLLM都表现出将表情包与比喻意义关联的强烈偏见,即使实际上没有比喻意义。定性分析进一步揭示,即使模型做出了正确的预测,其提供的解释也可能并不忠实于原始表情包的内容。这些发现突显了现有MLLM在多模态推理方面的局限性,并为未来的研究方向提供了启示。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容理解、情感分析、网络舆情监控等。通过提升MLLM在理解隐喻含义方面的能力,可以更准确地识别网络上的讽刺、幽默等表达方式,从而更好地理解用户的情感和意图。未来,该研究可以促进更智能的社交媒体分析工具的开发,并为构建更安全、更健康的在线社区做出贡献。

📄 摘要(原文)

Internet memes represent a popular form of multimodal online communication and often use figurative elements to convey layered meaning through the combination of text and images. However, it remains largely unclear how multimodal large language models (MLLMs) combine and interpret visual and textual information to identify figurative meaning in memes. To address this gap, we evaluate eight state-of-the-art generative MLLMs across three datasets on their ability to detect and explain six types of figurative meaning. In addition, we conduct a human evaluation of the explanations generated by these MLLMs, assessing whether the provided reasoning supports the predicted label and whether it remains faithful to the original meme content. Our findings indicate that all models exhibit a strong bias to associate a meme with figurative meaning, even when no such meaning is present. Qualitative analysis further shows that correct predictions are not always accompanied by faithful explanations.