MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
作者: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
分类: cs.CL, cs.CV
发布日期: 2024-09-04 (更新: 2025-05-22)
备注: ACL 2025 Main
💡 一句话要点
MMMU-Pro:更鲁棒的多学科多模态理解评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态理解 基准测试 视觉问答 鲁棒性评估 人工智能 思维链 OCR 文本嵌入
📋 核心要点
- 现有MMMU基准测试在评估多模态模型的真实理解能力方面存在不足,容易被仅依赖文本信息的模型所欺骗。
- MMMU-Pro通过过滤文本可解问题、增加选项难度和引入纯视觉输入,更严格地评估模型的多模态理解和推理能力。
- 实验表明,模型在MMMU-Pro上的性能显著下降,验证了该基准的鲁棒性,并揭示了现有模型在多模态理解方面的局限性。
📝 摘要(中文)
本文介绍了MMMU-Pro,它是大规模多学科多模态理解与推理(MMMU)基准的一个更鲁棒的版本。MMMU-Pro通过基于MMMU的三步流程,严格评估多模态模型真正的理解和推理能力:(1) 过滤掉仅文本模型可以回答的问题,(2) 扩充候选选项,以及(3) 引入纯视觉输入设置,其中问题嵌入在图像中。这种设置挑战人工智能同时“看”和“读”,测试人类无缝整合视觉和文本信息的基本认知技能。结果表明,模型在MMMU-Pro上的性能明显低于在MMMU上的性能,不同模型下降幅度从16.8%到26.9%。我们探讨了OCR提示和思维链(CoT)推理的影响,发现OCR提示效果甚微,而CoT通常可以提高性能。MMMU-Pro提供了一个更严格的评估工具,更贴近现实场景,并为多模态人工智能的未来研究提供了有价值的方向。
🔬 方法详解
问题定义:现有的大规模多模态理解基准(如MMMU)在评估模型的真实多模态理解能力时存在缺陷。许多问题可以通过仅依赖文本信息(例如问题本身或选项中的关键词)来解决,而无需真正理解图像内容。这导致模型在基准测试上表现良好,但实际的多模态理解能力可能被高估。
核心思路:MMMU-Pro的核心思路是通过三个关键步骤来增强基准测试的难度和鲁棒性,从而更准确地评估模型的多模态理解能力。这三个步骤分别是:过滤掉文本可解问题、增加候选选项的难度、以及引入纯视觉输入设置。通过这些步骤,MMMU-Pro旨在迫使模型真正理解图像和文本之间的关系,而不仅仅是依赖文本信息进行匹配。
技术框架:MMMU-Pro的构建流程主要包含以下三个阶段: 1. 问题过滤:使用文本模型(例如大型语言模型)来预测问题的答案。如果文本模型能够以较高的准确率回答问题,则该问题被认为是文本可解的,并从数据集中移除。 2. 选项增强:通过生成与正确答案相似但错误的选项来增加候选选项的难度。这可以防止模型通过简单的关键词匹配来选择答案。 3. 视觉嵌入:将问题文本嵌入到图像中,形成纯视觉输入。这要求模型同时“看”和“读”,从而测试其整合视觉和文本信息的能力。
关键创新:MMMU-Pro的关键创新在于其对多模态理解评估方式的改进。与传统的基准测试相比,MMMU-Pro更加注重评估模型对视觉和文本信息之间关系的真正理解,而不是简单的信息匹配。纯视觉输入设置是另一个重要的创新点,它挑战了模型同时处理视觉和文本信息的能力。
关键设计:在问题过滤阶段,使用了大型语言模型来预测答案,并设置了一个阈值来判断问题是否为文本可解。在选项增强阶段,使用了生成模型来生成与正确答案相似的错误选项。在视觉嵌入阶段,问题文本被以自然的方式嵌入到图像中,以模拟真实世界的场景。论文还探索了OCR提示和思维链(CoT)推理对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型在MMMU-Pro上的性能显著低于在原始MMMU上的性能,下降幅度在16.8%到26.9%之间。这表明MMMU-Pro能够更有效地揭示模型在多模态理解方面的不足。研究还发现,OCR提示对模型性能的影响很小,而思维链(CoT)推理通常可以提高性能。
🎯 应用场景
MMMU-Pro可用于评估和提升各种多模态人工智能系统的性能,例如视觉问答系统、图像描述生成系统和机器人导航系统。该基准测试能够推动多模态理解技术的进步,并促进更智能、更可靠的人工智能应用的发展,例如自动驾驶、智能医疗和智能家居。
📄 摘要(原文)
This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.