MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

作者: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig

分类: cs.CL, cs.CV

发布日期: 2024-09-04 (更新: 2025-05-22)

备注: ACL 2025 Main

💡 一句话要点

MMMU-Pro：更鲁棒的多学科多模态理解评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态理解 基准测试 视觉问答 鲁棒性评估 人工智能 思维链 OCR 文本嵌入

📋 核心要点

现有MMMU基准测试在评估多模态模型的真实理解能力方面存在不足，容易被仅依赖文本信息的模型所欺骗。
MMMU-Pro通过过滤文本可解问题、增加选项难度和引入纯视觉输入，更严格地评估模型的多模态理解和推理能力。
实验表明，模型在MMMU-Pro上的性能显著下降，验证了该基准的鲁棒性，并揭示了现有模型在多模态理解方面的局限性。

📝 摘要（中文）

本文介绍了MMMU-Pro，它是大规模多学科多模态理解与推理(MMMU)基准的一个更鲁棒的版本。MMMU-Pro通过基于MMMU的三步流程，严格评估多模态模型真正的理解和推理能力：(1) 过滤掉仅文本模型可以回答的问题，(2) 扩充候选选项，以及(3) 引入纯视觉输入设置，其中问题嵌入在图像中。这种设置挑战人工智能同时“看”和“读”，测试人类无缝整合视觉和文本信息的基本认知技能。结果表明，模型在MMMU-Pro上的性能明显低于在MMMU上的性能，不同模型下降幅度从16.8%到26.9%。我们探讨了OCR提示和思维链(CoT)推理的影响，发现OCR提示效果甚微，而CoT通常可以提高性能。MMMU-Pro提供了一个更严格的评估工具，更贴近现实场景，并为多模态人工智能的未来研究提供了有价值的方向。

🔬 方法详解

问题定义：现有的大规模多模态理解基准（如MMMU）在评估模型的真实多模态理解能力时存在缺陷。许多问题可以通过仅依赖文本信息（例如问题本身或选项中的关键词）来解决，而无需真正理解图像内容。这导致模型在基准测试上表现良好，但实际的多模态理解能力可能被高估。

核心思路：MMMU-Pro的核心思路是通过三个关键步骤来增强基准测试的难度和鲁棒性，从而更准确地评估模型的多模态理解能力。这三个步骤分别是：过滤掉文本可解问题、增加候选选项的难度、以及引入纯视觉输入设置。通过这些步骤，MMMU-Pro旨在迫使模型真正理解图像和文本之间的关系，而不仅仅是依赖文本信息进行匹配。

技术框架：MMMU-Pro的构建流程主要包含以下三个阶段： 1. 问题过滤：使用文本模型（例如大型语言模型）来预测问题的答案。如果文本模型能够以较高的准确率回答问题，则该问题被认为是文本可解的，并从数据集中移除。 2. 选项增强：通过生成与正确答案相似但错误的选项来增加候选选项的难度。这可以防止模型通过简单的关键词匹配来选择答案。 3. 视觉嵌入：将问题文本嵌入到图像中，形成纯视觉输入。这要求模型同时“看”和“读”，从而测试其整合视觉和文本信息的能力。

关键创新：MMMU-Pro的关键创新在于其对多模态理解评估方式的改进。与传统的基准测试相比，MMMU-Pro更加注重评估模型对视觉和文本信息之间关系的真正理解，而不是简单的信息匹配。纯视觉输入设置是另一个重要的创新点，它挑战了模型同时处理视觉和文本信息的能力。

关键设计：在问题过滤阶段，使用了大型语言模型来预测答案，并设置了一个阈值来判断问题是否为文本可解。在选项增强阶段，使用了生成模型来生成与正确答案相似的错误选项。在视觉嵌入阶段，问题文本被以自然的方式嵌入到图像中，以模拟真实世界的场景。论文还探索了OCR提示和思维链(CoT)推理对模型性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，模型在MMMU-Pro上的性能显著低于在原始MMMU上的性能，下降幅度在16.8%到26.9%之间。这表明MMMU-Pro能够更有效地揭示模型在多模态理解方面的不足。研究还发现，OCR提示对模型性能的影响很小，而思维链(CoT)推理通常可以提高性能。

🎯 应用场景

MMMU-Pro可用于评估和提升各种多模态人工智能系统的性能，例如视觉问答系统、图像描述生成系统和机器人导航系统。该基准测试能够推动多模态理解技术的进步，并促进更智能、更可靠的人工智能应用的发展，例如自动驾驶、智能医疗和智能家居。

📄 摘要（原文）

This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理