MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?
作者: Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan
分类: cs.CV
发布日期: 2024-08-23 (更新: 2025-02-05)
备注: Project Page: https://mme-realworld.github.io/; accepted by ICLR 2025
💡 一句话要点
MME-RealWorld:构建高分辨率真实世界多模态大模型评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 评测基准 高分辨率图像 真实世界场景 人工标注
📋 核心要点
- 现有MLLM评测基准存在数据规模小、质量受限、任务难度不足等问题,难以真实反映模型在现实场景中的能力。
- MME-RealWorld通过大规模人工标注高分辨率图像,构建更具挑战性的评测基准,聚焦真实世界应用。
- 实验结果表明,即使是GPT-4o等先进模型在MME-RealWorld上的表现也远未达到人类水平,有待进一步提升。
📝 摘要(中文)
多模态大语言模型(MLLM)的全面评估最近受到了研究界的广泛关注。然而,我们观察到现有的基准测试存在一些常见的障碍,使得衡量模型在现实世界中面临的重大挑战变得困难,包括:1)小规模数据导致较大的性能方差;2)依赖于基于模型的标注导致数据质量受限;3)任务难度不足,特别是由于图像分辨率的限制。为了解决这些问题,我们推出了MME-RealWorld。具体来说,我们从公共数据集和互联网收集了超过30万张图像,筛选出13366张高质量图像进行标注。这涉及25名专业标注员和7名MLLM专家的努力,贡献了29429个问答对,涵盖5个真实世界场景中的43个子任务,即使对人类来说也极具挑战性。据我们所知,MME-RealWorld是迄今为止最大的人工标注基准,具有最高的分辨率,并有针对性地关注现实世界的应用。我们进一步对28个著名的MLLM进行了全面评估,如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet。我们的结果表明,即使是最先进的模型也在我们的基准测试中表现不佳,没有一个模型达到60%的准确率。感知高分辨率图像和理解复杂的现实世界场景的挑战仍然是亟待解决的问题。数据和评估代码已在https://mme-realworld.github.io/发布。
🔬 方法详解
问题定义:现有MLLM评测基准在评估模型处理高分辨率图像和理解复杂真实世界场景的能力方面存在不足。具体表现为:数据规模小导致评估结果不稳定,模型标注质量受限,以及任务难度不足,无法充分激发模型的潜力。这些问题使得现有基准难以准确衡量MLLM在实际应用中的表现。
核心思路:MME-RealWorld的核心思路是通过构建一个大规模、高质量、高难度的评测基准,来更全面、更准确地评估MLLM在真实世界场景中的能力。该基准侧重于高分辨率图像的理解和复杂场景的推理,旨在推动MLLM在实际应用中的发展。
技术框架:MME-RealWorld的构建流程主要包括以下几个阶段:1) 数据收集:从公共数据集和互联网收集超过30万张图像。2) 数据筛选:筛选出13366张高质量图像。3) 数据标注:由25名专业标注员和7名MLLM专家进行人工标注,生成29429个问答对。4) 任务设计:涵盖5个真实世界场景中的43个子任务。5) 模型评估:使用MME-RealWorld评估28个主流MLLM。
关键创新:MME-RealWorld的关键创新在于其大规模、高质量的人工标注数据和高难度的评测任务。与现有基准相比,MME-RealWorld具有更大的数据规模、更高的图像分辨率和更复杂的场景设置,能够更有效地评估MLLM在真实世界中的表现。此外,该基准完全依赖人工标注,避免了模型标注可能引入的偏差。
关键设计:MME-RealWorld的关键设计包括:1) 图像分辨率:尽可能采用高分辨率图像,以测试模型对细节的感知能力。2) 场景选择:选择具有代表性的真实世界场景,如零售、医疗、交通等。3) 任务设计:设计多样化的任务类型,包括目标检测、场景理解、推理问答等。4) 标注规范:制定详细的标注规范,确保标注质量和一致性。
🖼️ 关键图片
📊 实验亮点
在MME-RealWorld基准测试中,即使是最先进的MLLM,如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet,也难以达到理想的性能。所有被评估的模型在基准测试上的准确率均低于60%,表明MLLM在处理高分辨率图像和理解复杂真实世界场景方面仍面临巨大挑战。这突显了MME-RealWorld作为高难度评测基准的价值。
🎯 应用场景
MME-RealWorld可用于评估和提升MLLM在各种真实世界应用中的性能,例如智能零售中的商品识别、智能医疗中的医学影像诊断、智能交通中的场景理解等。该基准的发布将促进MLLM在实际场景中的应用,并推动相关技术的发展。
📄 摘要(原文)
Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .