MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

📄 arXiv: 2410.10563v3 📥 PDF

作者: Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen

分类: cs.CV

发布日期: 2024-10-14 (更新: 2025-07-13)

备注: ICLR 2025 camera-ready version. Project page: https://tiger-ai-lab.github.io/MEGA-Bench/


💡 一句话要点

MEGA-Bench:构建包含500+真实世界任务的多模态评估基准,覆盖广泛应用场景。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态评估 视觉语言模型 真实世界任务 基准测试 能力报告

📋 核心要点

  1. 现有benchmark通常将多模态任务简化为多项选择题,无法真实反映实际应用中复杂多样的输出形式。
  2. MEGA-Bench通过收集500+真实世界任务,覆盖多种输入类型和输出格式,构建更全面的评估体系。
  3. 该benchmark提供细粒度的能力报告,允许用户深入了解模型在不同维度上的表现,并进行可视化分析。

📝 摘要(中文)

本文提出了MEGA-Bench,一个将多模态评估扩展到超过500个真实世界任务的评估套件,旨在解决终端用户高度异构的日常使用场景。我们的目标是优化一组高质量的数据样本,这些样本涵盖高度多样化和丰富的多模态任务集,同时实现具有成本效益和准确的模型评估。具体而言,我们收集了来自16位专家注释者的505个真实任务,包含超过8,000个样本,以广泛覆盖多模态任务空间。与将这些问题统一为标准多项选择题(如MMMU、MMBench和MMT-Bench)不同,我们采用了广泛的输出格式,如数字、短语、代码、LaTeX、坐标、JSON、自由文本等。为了适应这些格式,我们开发了超过40个指标来评估这些任务。与现有基准不同,MEGA-Bench提供了跨多个维度(例如,应用、输入类型、输出格式、技能)的细粒度能力报告,允许用户深入交互和可视化模型能力。我们在MEGA-Bench上评估了各种前沿视觉语言模型,以了解它们在这些维度上的能力。

🔬 方法详解

问题定义:现有的大部分多模态评估基准,如MMMU、MMBench和MMT-Bench,通常将各种多模态任务统一成多项选择题的形式。这种做法虽然简化了评估流程,但忽略了真实世界应用中任务的多样性和复杂性,特别是输出格式的多样性。实际应用中,模型可能需要生成数字、短语、代码、LaTeX公式、坐标、JSON数据甚至自由文本等多种形式的输出。因此,需要一个更全面、更贴近实际的评估基准来衡量多模态模型的能力。

核心思路:MEGA-Bench的核心思路是构建一个大规模、多样化的多模态任务集合,尽可能覆盖真实世界应用中遇到的各种场景和输出格式。通过收集大量真实的任务样本,并设计相应的评估指标,可以更准确地评估多模态模型在实际应用中的能力。此外,MEGA-Bench还提供细粒度的能力报告,帮助用户深入了解模型在不同维度上的表现。

技术框架:MEGA-Bench的构建主要包括以下几个阶段:1) 任务收集:从真实世界应用中收集505个任务,涵盖各种输入类型(图像、文本等)和输出格式(数字、短语、代码、LaTeX、坐标、JSON、自由文本等)。2) 数据标注:聘请16位专家对收集到的任务进行标注,生成高质量的数据样本。总共收集了超过8,000个样本。3) 指标设计:针对不同的输出格式,设计了超过40个评估指标,以准确衡量模型的性能。4) 能力报告:开发细粒度的能力报告,从应用、输入类型、输出格式、技能等多个维度展示模型的性能。

关键创新:MEGA-Bench的关键创新在于其对真实世界任务的全面覆盖和对多样化输出格式的支持。与现有基准相比,MEGA-Bench更贴近实际应用,能够更准确地评估多模态模型的能力。此外,MEGA-Bench提供的细粒度能力报告也为用户深入了解模型性能提供了便利。

关键设计:MEGA-Bench的关键设计包括:1) 任务的多样性:确保任务涵盖各种应用领域和输入输出格式,以尽可能模拟真实世界场景。2) 数据质量:通过专家标注和质量控制,保证数据样本的准确性和可靠性。3) 指标的针对性:针对不同的输出格式,设计专门的评估指标,以准确衡量模型的性能。例如,对于代码生成任务,可以使用代码执行成功率作为指标;对于LaTeX公式生成任务,可以使用公式的正确性和可读性作为指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MEGA-Bench对多种前沿视觉语言模型进行了评估,揭示了它们在不同维度上的能力差异。实验结果表明,现有模型在处理复杂输出格式和需要特定技能的任务时仍存在挑战。MEGA-Bench的评估结果可以为模型改进提供指导,并帮助用户选择最适合特定应用场景的模型。

🎯 应用场景

MEGA-Bench可广泛应用于多模态模型的评估和选择,帮助研究人员和开发者更好地了解模型在不同任务上的表现。该基准能够促进视觉语言模型在实际应用中的落地,例如智能助手、自动化报告生成、代码生成、科学文档理解等领域。通过MEGA-Bench,可以更有效地评估和改进多模态模型,使其更好地服务于现实世界的各种需求。

📄 摘要(原文)

We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.