MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
作者: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
分类: cs.CV, cs.CL, cs.LG
发布日期: 2024-10-14 (更新: 2025-03-31)
备注: ICLR 2025 Oral
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出MMIE大规模多模态交错理解基准,用于评估大型视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 交错理解 基准测试 自动评估
📋 核心要点
- 现有基准测试在数据规模、覆盖范围和评估深度上存在不足,难以全面评估大型视觉语言模型在交错多模态理解和生成方面的能力。
- 提出MMIE基准,包含20K个多模态查询,覆盖多个领域,支持交错输入输出,并设计了多样的题型,以更全面地评估模型能力。
- 提出一种基于微调评分模型的自动评估指标,旨在减少评估偏差,提高评估的准确性和可靠性,实验表明该基准和指标的有效性。
📝 摘要(中文)
多模态交错理解与生成,即模型能够以任意序列产生和解释图像与文本,已成为多模态学习的关键领域。尽管取得了显著进展,但对此能力的评估仍然不足。现有基准在数据规模、范围和评估深度方面存在局限性,而当前的评估指标通常成本高昂或存在偏差,缺乏实际应用的可靠性。为了解决这些挑战,我们引入了MMIE,这是一个大规模的知识密集型基准,用于评估大型视觉语言模型(LVLM)中的交错多模态理解和生成。MMIE包含20K个精心策划的多模态查询,涵盖3个类别、12个领域和102个子领域,包括数学、编码、物理、文学、健康和艺术。它支持交错输入和输出,提供多项选择和开放式问题格式的混合,以评估不同的能力。此外,我们提出了一种可靠的自动评估指标,利用使用人工标注数据和系统评估标准微调的评分模型,旨在减少偏差并提高评估准确性。广泛的实验证明了我们的基准和指标在提供对交错LVLM的全面评估方面的有效性。具体来说,我们评估了八个LVLM,发现即使是最好的模型也显示出很大的改进空间,大多数模型只取得了中等的结果。我们相信MMIE将推动交错LVLM开发的进一步发展。我们在https://mmie-bench.github.io/公开发布了我们的基准和代码。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLM)在交错多模态理解和生成方面取得了显著进展,但缺乏一个全面、可靠的评估基准。现有的基准测试存在数据规模小、覆盖范围窄、评估深度不足等问题,难以充分评估模型在复杂场景下的理解和生成能力。此外,现有的评估指标往往依赖于人工评估,成本高昂且容易引入主观偏差。
核心思路:MMIE的核心思路是构建一个大规模、知识密集型的多模态交错理解基准,并设计一种自动化的评估指标,以克服现有基准的局限性。通过精心策划的多模态查询,覆盖多个领域和题型,全面评估LVLM在交错输入输出场景下的理解和生成能力。同时,利用微调的评分模型,减少评估偏差,提高评估的效率和可靠性。
技术框架:MMIE基准测试包含以下几个主要组成部分: 1. 数据集构建:构建包含20K个多模态查询的数据集,覆盖数学、编码、物理、文学、健康和艺术等多个领域。 2. 数据标注:对数据集进行人工标注,用于训练和评估评分模型。 3. 评估指标:提出一种基于微调评分模型的自动评估指标,用于评估LVLM的性能。 4. 模型评估:使用MMIE基准测试评估多个LVLM的性能,并分析结果。
关键创新:MMIE的关键创新点在于: 1. 大规模和知识密集型:MMIE是目前最大的多模态交错理解基准之一,包含20K个查询,覆盖多个领域,需要模型具备丰富的知识和推理能力。 2. 交错输入输出:MMIE支持交错的图像和文本输入输出,更贴近实际应用场景。 3. 自动评估指标:提出了一种基于微调评分模型的自动评估指标,减少了人工评估的成本和偏差。
关键设计:在MMIE中,评分模型采用预训练的语言模型进行微调,使用人工标注的数据进行训练。评分模型的输入是模型生成的答案和参考答案,输出是一个评分,表示生成答案的质量。损失函数采用回归损失,目标是使评分模型的输出接近人工标注的评分。此外,MMIE还设计了多种题型,包括多项选择题和开放式问题,以评估模型在不同方面的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的LVLM在MMIE基准测试上的表现也远未达到完美,大多数模型只取得了中等水平的结果。这表明LVLM在多模态交错理解和生成方面仍有很大的提升空间。MMIE基准测试和自动评估指标为LVLM的进一步发展提供了有力的工具。
🎯 应用场景
MMIE基准测试可以广泛应用于评估和提升大型视觉语言模型在多模态交互场景下的理解和生成能力。例如,可以用于开发智能助手、教育机器人、医疗诊断系统等,这些系统需要能够理解图像和文本信息,并进行交互式的问答和推理。此外,MMIE还可以促进多模态学习领域的研究,推动相关技术的发展。
📄 摘要(原文)
Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.