MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

📄 arXiv: 2407.00468v2 📥 PDF

作者: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-06-29 (更新: 2025-02-27)

备注: 18 pages, code released at https://github.com/chenllliang/MMEvalPro, Homepage at https://mmevalpro.github.io/


💡 一句话要点

MMEvalPro:校准多模态基准测试,实现可信高效的评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态评估 基准测试 大型多模态模型 视觉问答 知识推理 数据集偏差 可信评估

📋 核心要点

  1. 现有基准测试存在系统性偏差,导致大型语言模型在没有视觉感知能力的情况下也能取得不错的性能,降低了评估的可信度。
  2. MMEvalPro通过三部曲评估流程,为每个原始问题增加一个感知问题和一个知识锚定问题,从而避免I类错误。
  3. 实验表明,MMEvalPro更具挑战性,最佳LMM与人类表现差距更大,同时评估结果也更值得信赖,LLM与LMM的差距更明显。

📝 摘要(中文)

大型多模态模型(LMMs)展现了令人印象深刻的跨模态理解和推理能力,通常通过多项选择题(MCQs)进行评估,这些问题包括图像、问题和几个选项。然而,许多用于此类评估的基准测试都存在系统性偏差。值得注意的是,没有任何视觉感知能力的大型语言模型(LLMs)也能取得不错的性能,这削弱了这些评估的可信度。为了解决这个问题,同时保持MCQ评估的效率,我们提出了MMEvalPro,这是一个旨在通过三部曲评估流程和更严格的指标来避免I类错误的基准测试。对于现有基准测试中的每个原始问题,人工标注员通过细致的标注过程,增加一个感知问题和一个知识锚定问题。MMEvalPro包含2,138个问题三元组,总计6,414个不同的问题。其中三分之二的问题由人工专家手动标记,其余问题来自现有基准测试(MMMU、ScienceQA和MathVista)。与现有基准测试相比,我们对最新LLM和LMM的实验表明,MMEvalPro更具挑战性(最佳LMM落后于人类表现31.73%,而先前基准测试的平均差距为8.03%),并且更值得信赖(最佳LLM落后于最佳LMM 23.09%,而先前基准测试的差距仅为14.64%)。我们的深入分析解释了性能差距大的原因,并证明了评估的可信度,强调了其在推进未来研究方面的巨大潜力。

🔬 方法详解

问题定义:现有的大型多模态模型评估基准存在系统性偏差,使得不具备视觉能力的大型语言模型也能取得较好的结果,无法真实反映多模态模型的性能。现有方法的痛点在于无法有效区分模型是真正理解了多模态信息,还是仅仅依赖于语言知识或数据集偏差。

核心思路:MMEvalPro的核心思路是通过构建更具挑战性和可信度的基准测试,来更准确地评估大型多模态模型的性能。它通过为每个原始问题增加一个感知问题和一个知识锚定问题,形成一个问题三元组,从而更全面地考察模型的多模态理解能力。

技术框架:MMEvalPro的整体框架是一个三部曲评估流程。首先,从现有的多模态基准测试(如MMMU、ScienceQA和MathVista)中选取原始问题。然后,由人工标注员为每个原始问题创建两个新的问题:一个感知问题,用于测试模型对图像的感知能力;一个知识锚定问题,用于测试模型对相关知识的掌握程度。最后,使用这三个问题组成一个问题三元组,对模型进行评估。

关键创新:MMEvalPro最重要的技术创新点在于其问题三元组的设计。通过引入感知问题和知识锚定问题,MMEvalPro能够更有效地避免I类错误,即错误地认为模型具有多模态理解能力,而实际上模型只是利用了数据集偏差或语言知识。这种设计使得评估结果更加可信。

关键设计:MMEvalPro的关键设计包括:1) 人工标注员的细致标注过程,确保感知问题和知识锚定问题与原始问题相关且具有挑战性;2) 问题三元组的构建,确保模型需要同时具备感知能力、知识储备和推理能力才能正确回答问题;3) 严格的评估指标,用于衡量模型在MMEvalPro上的表现,并与其他基准测试进行比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMEvalPro比现有基准测试更具挑战性和可信度。最佳LMM在MMEvalPro上的表现落后于人类31.73%,而先前基准测试的平均差距仅为8.03%。同时,最佳LLM与最佳LMM在MMEvalPro上的差距为23.09%,而先前基准测试的差距仅为14.64%。这些结果表明,MMEvalPro能够更有效地评估多模态模型的真实性能。

🎯 应用场景

MMEvalPro可用于评估各种大型多模态模型的性能,例如视觉问答、图像描述和视觉推理等任务。它能够帮助研究人员更准确地了解模型的优势和不足,从而指导模型的设计和训练。此外,MMEvalPro还可以用于比较不同模型之间的性能差异,为模型选择提供依据。该研究的成果将推动多模态人工智能领域的发展。

📄 摘要(原文)

Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises $2,138$ question triplets, totaling $6,414$ distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by $31.73\%$, compared to an average gap of $8.03\%$ in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by $23.09\%$, whereas the gap for previous benchmarks is just $14.64\%$). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.