Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models
作者: Haokun Li, Yazhou Zhang, Jizhi Ding, Qiuchi Li, Peng Zhang
分类: cs.CL
发布日期: 2025-09-14 (更新: 2025-09-23)
备注: I need to modify the content of the article
💡 一句话要点
EmoBench-Reddit:一个用于评估多模态大语言模型情感理解能力的新基准
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 情感理解 基准数据集 大语言模型 视觉-语言 认知推理 人机交互
📋 核心要点
- 现有MLLM评估侧重客观视觉任务,忽略了对复杂主观人类情感理解能力的评估。
- 提出EmoBench-Reddit基准,包含图像、文本和情感标签,并设计分层任务框架。
- 实验评估了多个领先MLLM,旨在促进模型在情感理解方面的研究与发展。
📝 摘要(中文)
随着多模态大语言模型(MLLMs)的快速发展,它们在各种视觉-语言任务中表现出卓越的能力。然而,当前的评估基准主要集中在客观的视觉问答或图像描述上,未能充分评估模型理解复杂和主观人类情感的能力。为了弥合这一差距,我们推出了EmoBench-Reddit,这是一个新颖的分层基准,用于多模态情感理解。该数据集包含350个精心策划的来自社交媒体平台Reddit的样本,每个样本包含一张图像、相关的用户提供的文本以及用户标签确认的情感类别(悲伤、幽默、讽刺、快乐)。我们设计了一个分层任务框架,从基本的感知到高级的认知,每个数据点包含六个难度递增的选择题和一个开放式问题。感知任务评估模型识别基本视觉元素(例如,颜色、对象)的能力,而认知任务需要场景推理、意图理解以及整合文本语境的深度共情。我们通过AI辅助(Claude 4)和人工验证相结合的方式确保了标注质量。我们对九个领先的MLLM(包括GPT-5、Gemini-2.5-pro和GPT-4o)在EmoBench-Reddit上进行了全面评估。
🔬 方法详解
问题定义:现有的大型多模态语言模型(MLLMs)在视觉问答和图像描述等任务上表现出色,但缺乏对复杂和主观人类情感的深入理解和准确识别能力。现有的评估基准未能充分衡量模型在情感理解方面的能力,尤其是在需要结合视觉和文本信息进行推理和共情的情况下。
核心思路:论文的核心思路是构建一个专门用于评估MLLMs情感理解能力的新基准数据集EmoBench-Reddit。该数据集包含图像、文本和情感标签,并设计分层任务框架,从基本的视觉感知到高级的认知推理,逐步评估模型的情感理解能力。通过这种方式,可以更全面地了解模型在情感理解方面的优势和不足。
技术框架:EmoBench-Reddit数据集构建流程包括:1) 从Reddit收集包含图像和文本的数据;2) 使用用户标签确定情感类别(悲伤、幽默、讽刺、快乐);3) 设计分层任务框架,包括感知任务(识别颜色、对象等)和认知任务(场景推理、意图理解、深度共情);4) 使用AI辅助(Claude 4)和人工验证相结合的方式确保标注质量;5) 构建包含六个选择题和一个开放式问题的数据点。
关键创新:该论文的关键创新在于提出了一个专门用于评估MLLMs情感理解能力的分层基准数据集EmoBench-Reddit。该数据集不仅包含图像和文本信息,还包含了情感标签,并且设计了分层任务框架,可以更全面地评估模型在情感理解方面的能力。此外,论文还采用了AI辅助和人工验证相结合的方式,确保了标注质量。
关键设计:EmoBench-Reddit的关键设计包括:1) 数据集包含350个精心策划的样本,来自Reddit;2) 每个样本包含图像、文本和情感标签;3) 情感类别包括悲伤、幽默、讽刺和快乐;4) 分层任务框架包括感知任务和认知任务;5) 每个数据点包含六个选择题和一个开放式问题;6) 标注质量通过AI辅助(Claude 4)和人工验证相结合的方式保证。
📊 实验亮点
论文对九个领先的MLLM(包括GPT-5、Gemini-2.5-pro和GPT-4o)在EmoBench-Reddit上进行了全面评估。实验结果表明,这些模型在感知任务上表现较好,但在认知任务上表现较差,表明MLLM在情感理解方面仍有很大的提升空间。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于情感分析、人机交互、心理健康监测等领域。通过提高MLLM的情感理解能力,可以开发更智能、更人性化的AI系统,例如能够理解用户情绪并提供个性化服务的聊天机器人,以及能够识别社交媒体上的负面情绪并进行干预的系统。未来,该研究还可以促进跨文化情感理解的研究。
📄 摘要(原文)
With the rapid advancement of Multimodal Large Language Models (MLLMs), they have demonstrated exceptional capabilities across a variety of vision-language tasks. However, current evaluation benchmarks predominantly focus on objective visual question answering or captioning, inadequately assessing the models' ability to understand complex and subjective human emotions. To bridge this gap, we introduce EmoBench-Reddit, a novel, hierarchical benchmark for multimodal emotion understanding. The dataset comprises 350 meticulously curated samples from the social media platform Reddit, each containing an image, associated user-provided text, and an emotion category (sad, humor, sarcasm, happy) confirmed by user flairs. We designed a hierarchical task framework that progresses from basic perception to advanced cognition, with each data point featuring six multiple-choice questions and one open-ended question of increasing difficulty. Perception tasks evaluate the model's ability to identify basic visual elements (e.g., colors, objects), while cognition tasks require scene reasoning, intent understanding, and deep empathy integrating textual context. We ensured annotation quality through a combination of AI assistance (Claude 4) and manual verification.We conducted a comprehensive evaluation of nine leading MLLMs, including GPT-5, Gemini-2.5-pro, and GPT-4o, on EmoBench-Reddit.