LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
作者: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
分类: cs.CL, cs.CV
发布日期: 2024-07-17 (更新: 2025-05-05)
备注: Code ad leaderboard are available at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench
DOI: 10.18653/v1/2025.findings-naacl.51
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
提出LMMS-EVAL框架,解决大模型评测中覆盖率、成本和污染的难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型评估 大型语言模型 基准测试 零污染评估 实时数据 模型泛化能力 LMMS-EVAL 评估框架
📋 核心要点
- 现有大模型评测方法在覆盖率、成本和数据污染方面存在不足,难以全面评估模型性能。
- 提出LMMS-EVAL框架,包含LMMS-EVAL、LMMS-EVAL LITE和Multimodal LIVEBENCH,旨在平衡评测的覆盖率、成本和污染。
- Multimodal LIVEBENCH利用实时更新的新闻和论坛数据,评估模型在真实场景下的泛化能力,实现低成本和零污染。
📝 摘要(中文)
大型基础模型的进步需要覆盖范围广、成本低且零污染的基准测试。尽管对语言模型评估的探索不断,但对大型多模态模型(LMM)评估的全面研究仍然有限。本文介绍了LMMS-EVAL,一个统一和标准化的多模态基准框架,包含50多个任务和10多个模型,以促进透明和可重复的评估。尽管LMMS-EVAL提供了全面的覆盖,但我们发现它在实现低成本和零污染方面仍然不足。为了解决这个评估困境,我们进一步推出了LMMS-EVAL LITE,这是一个精简的评估工具包,强调覆盖范围和效率。此外,我们还提出了Multimodal LIVEBENCH,它利用不断更新的新闻和在线论坛来评估模型在野外的泛化能力,具有低成本和零污染的评估方法。总而言之,我们的工作强调了考虑评估困境的重要性,并为应对评估大型多模态模型中的权衡提供了实用的解决方案,为更有效和可靠的LMM基准测试铺平了道路。
🔬 方法详解
问题定义:现有的大型多模态模型(LMM)评估方法面临着覆盖范围不足、评估成本高昂以及数据污染等问题。传统的评估基准往往难以覆盖LMM的全部能力,并且容易受到训练数据泄露的影响,导致评估结果失真。因此,需要一种更全面、更经济、更可靠的评估方法来准确衡量LMM的性能。
核心思路:本文的核心思路是构建一个统一且标准化的多模态基准框架LMMS-EVAL,并在此基础上提出LMMS-EVAL LITE和Multimodal LIVEBENCH,以解决评估中的覆盖率、成本和污染问题。LMMS-EVAL LITE通过精简任务来降低评估成本,而Multimodal LIVEBENCH则利用实时数据来避免数据污染,从而实现更可靠的评估。
技术框架:LMMS-EVAL框架包含三个主要组成部分:LMMS-EVAL、LMMS-EVAL LITE和Multimodal LIVEBENCH。LMMS-EVAL是一个全面的多模态基准,包含50多个任务。LMMS-EVAL LITE是LMMS-EVAL的精简版本,旨在提高评估效率。Multimodal LIVEBENCH则利用实时更新的新闻和在线论坛数据进行评估。整个框架旨在提供一个全面、高效且可靠的LMM评估平台。
关键创新:本文的关键创新在于提出了一个综合性的评估框架,该框架不仅考虑了评估的覆盖范围,还关注了评估的成本和数据污染问题。Multimodal LIVEBENCH利用实时数据进行评估,是一种新颖的评估方法,可以有效地避免数据污染,并更真实地反映模型在实际应用中的性能。
关键设计:LMMS-EVAL LITE通过选择最具代表性的任务来精简评估流程,从而降低评估成本。Multimodal LIVEBENCH的关键设计在于其数据来源,即实时更新的新闻和在线论坛数据。这些数据具有时效性和多样性,可以更全面地评估模型的泛化能力。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LMMS-EVAL框架包含50多个任务,覆盖范围广泛。LMMS-EVAL LITE通过精简任务降低了评估成本。Multimodal LIVEBENCH利用实时数据,实现了低成本和零污染的评估。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要评估大型多模态模型性能的场景,例如模型开发、模型选择和模型部署。通过使用LMMS-EVAL框架,开发者可以更全面、更高效地评估模型的性能,从而选择更合适的模型并优化模型性能。该研究还有助于推动多模态模型评估领域的发展,促进更可靠和可信的AI系统的构建。
📄 摘要(原文)
The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.