Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models
作者: Piotr Padlewski, Max Bain, Matthew Henderson, Zhongkai Zhu, Nishant Relan, Hai Pham, Donovan Ong, Kaloyan Aleksiev, Aitor Ormazabal, Samuel Phua, Ethan Yeo, Eugenie Lamprecht, Qi Liu, Yuqi Wang, Eric Chen, Deyu Fu, Lei Li, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Mikel Artetxe, Yi Tay
分类: cs.CL, cs.AI, cs.CV
发布日期: 2024-05-03
🔗 代码/项目: GITHUB
💡 一句话要点
Vibe-Eval:用于评估多模态语言模型的新型高难度评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉理解 评测基准 聊天模型 人工智能
📋 核心要点
- 现有方法难以全面评估多模态聊天模型在复杂视觉理解任务中的能力,尤其是在高难度场景下。
- Vibe-Eval通过构建包含高难度视觉理解提示的评测基准,旨在更严格地测试前沿多模态模型的能力。
- 实验表明,Vibe-Eval中的高难度问题对现有模型构成挑战,且自动评估与人工评估具有一定相关性。
📝 摘要(中文)
本文介绍Vibe-Eval,这是一个用于评估多模态聊天模型的新型开放基准和框架。Vibe-Eval包含269个视觉理解提示,其中包括100个高难度提示,并附有专家编写的金标准答案。Vibe-Eval是开放式的且具有挑战性,具有双重目标:(i)检查多模态聊天模型在日常任务中的表现,以及(ii)严格测试和探测当前前沿模型的能力。值得注意的是,我们的高难度集合包含>50%的问题,所有前沿模型都无法正确回答。我们探讨了在超高难度提示上设计、评估和排名模型的细微之处。我们还讨论了人工评估和自动评估之间的权衡,并表明使用Reka Core进行的自动模型评估与人类判断大致相关。我们提供免费的API访问权限,用于轻量级评估,并计划对在Vibe-Eval的自动评分中表现良好的公共模型进行正式的人工评估。我们发布了评估代码和数据,详见https://github.com/reka-ai/reka-vibe-eval。
🔬 方法详解
问题定义:现有方法在评估多模态聊天模型时,缺乏足够具有挑战性的测试用例,难以准确衡量模型在复杂视觉理解任务中的真实能力。尤其是在需要常识推理、细粒度识别或处理对抗性样本时,现有模型的表现往往不尽如人意。因此,需要一个更具挑战性的评估基准来推动多模态模型的发展。
核心思路:Vibe-Eval的核心思路是构建一个包含大量高难度视觉理解提示的评测数据集,这些提示需要模型具备更强的推理、识别和泛化能力。通过分析模型在这些高难度提示上的表现,可以更全面地了解模型的优缺点,并为模型改进提供指导。
技术框架:Vibe-Eval框架主要包含以下几个部分:1)数据集构建:收集并标注包含269个视觉理解提示的数据集,其中100个为高难度提示,并提供专家编写的金标准答案。2)评估指标:采用人工评估和自动评估相结合的方式,评估模型的性能。自动评估使用Reka Core,并与人工评估结果进行对比。3)API接口:提供免费的API接口,方便研究人员进行轻量级评估。4)排行榜:根据模型的评估结果,建立排行榜,促进模型之间的竞争。
关键创新:Vibe-Eval的关键创新在于其高难度的数据集。该数据集包含大量需要复杂推理和细粒度识别的视觉理解提示,对现有模型提出了更高的要求。与现有数据集相比,Vibe-Eval更能有效地衡量模型在实际应用中的性能。
关键设计:Vibe-Eval的高难度提示设计主要考虑了以下几个方面:1)需要常识推理:提示需要模型具备一定的常识知识才能正确回答。2)需要细粒度识别:提示需要模型能够识别图像中的细微差别。3)包含对抗性样本:提示中包含一些对抗性样本,以测试模型的鲁棒性。此外,Vibe-Eval还采用了专家编写的金标准答案,以保证评估的准确性。
🖼️ 关键图片
📊 实验亮点
Vibe-Eval包含超过50%的问题,现有前沿模型都无法正确回答,这表明该基准具有很高的挑战性。实验结果表明,使用Reka Core进行的自动模型评估与人工判断具有一定相关性,这为自动评估多模态模型提供了新的思路。该研究发布了评估代码和数据,为研究人员提供了便利。
🎯 应用场景
Vibe-Eval可用于评估各种多模态聊天模型,例如视觉问答、图像描述和视觉对话等。该基准可以帮助研究人员更好地了解模型的优缺点,并为模型改进提供指导。此外,Vibe-Eval还可以用于比较不同模型之间的性能,促进多模态模型的发展。该研究的成果将推动多模态人工智能在智能客服、自动驾驶、医疗诊断等领域的应用。
📄 摘要(原文)
We introduce Vibe-Eval: a new open benchmark and framework for evaluating multimodal chat models. Vibe-Eval consists of 269 visual understanding prompts, including 100 of hard difficulty, complete with gold-standard responses authored by experts. Vibe-Eval is open-ended and challenging with dual objectives: (i) vibe checking multimodal chat models for day-to-day tasks and (ii) rigorously testing and probing the capabilities of present frontier models. Notably, our hard set contains >50% questions that all frontier models answer incorrectly. We explore the nuances of designing, evaluating, and ranking models on ultra challenging prompts. We also discuss trade-offs between human and automatic evaluation, and show that automatic model evaluation using Reka Core roughly correlates to human judgment. We offer free API access for the purpose of lightweight evaluation and plan to conduct formal human evaluations for public models that perform well on the Vibe-Eval's automatic scores. We release the evaluation code and data, see https://github.com/reka-ai/reka-vibe-eval