DatBench: Discriminative, Faithful, and Efficient VLM Evaluations
作者: Siddharth Joshi, Haoli Yin, Rishabh Adiga, Ricardo Monti, Aldo Carranza, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Fan Pan, Haakon Mongstad, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Kaleigh Mentzer, Luke Merrick, Parth Doshi, Paul Burstein, Pratyush Maini, Scott Loftin, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
分类: cs.LG, cs.AI
发布日期: 2026-01-05
💡 一句话要点
DatBench:提出兼具区分性、可靠性和高效性的VLM评估基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 VLM评估 基准测试 多模态学习 数据集清洗
📋 核心要点
- 现有VLM评估方法存在保真度低、区分性差、计算成本高等问题,无法准确反映模型能力。
- 通过转换和过滤现有基准,提高评估的保真度和区分性,并降低计算成本。
- 提出的DatBench评估套件,包含33个数据集,在保证区分能力的同时,实现了13倍的平均加速。
📝 摘要(中文)
实证评估是指导基础模型研究进展的主要指南。尽管在训练前沿视觉-语言模型(VLM)方面已经有大量工作,但对其评估的方法仍然处于起步阶段。为了指导其成熟,我们提出了评估应满足的三个要求:(1)忠实于模态和应用,(2)区分不同质量的模型,以及(3)计算效率。通过这个视角,我们识别出违反可靠性和区分性的关键失败模式,从而错误地表示了模型的能力:(i)多项选择格式奖励猜测,不能很好地反映下游用例,并且随着模型的改进而过早饱和;(ii)盲目可解的问题,可以在没有图像的情况下回答,在某些评估中占高达70%;(iii)标记错误或模糊的样本在某些数据集中占高达42%的例子。关于效率,评估前沿模型的计算负担已经变得令人望而却步:在某些情况下,近20%的开发计算专门用于评估。我们没有丢弃现有的基准,而是通过转换和过滤来管理它们,以最大限度地提高保真度和区分性。我们发现将多项选择题转换为生成任务会显示高达35%的显著能力下降。此外,过滤盲目可解和标记错误的样本可以提高区分能力,同时降低计算成本。我们发布了DatBench-Full,一个包含33个数据集的清理评估套件,涵盖九种VLM能力,以及DatBench,一个具有区分性的子集,在密切匹配原始数据集的区分能力的同时,实现了13倍的平均加速(高达50倍)。我们的工作概述了一条通往评估实践的道路,随着VLM的不断扩展,这些评估实践既严格又可持续。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)的评估方法存在多个痛点。首先,多项选择题容易被模型通过猜测回答,无法真实反映模型的理解能力。其次,许多评估数据集包含盲目可解的问题,即无需图像信息也能正确回答,导致评估结果失真。此外,数据集中的错误标注或模糊样本也会影响评估的准确性。最后,评估前沿VLM模型的计算成本非常高昂,限制了模型迭代的速度。
核心思路:论文的核心思路是通过对现有VLM评估基准进行清洗和改进,提高评估的保真度、区分性和效率。具体而言,论文提出将多项选择题转换为生成式任务,以减少猜测的影响;过滤掉盲目可解的问题和错误标注的样本,提高评估的准确性;通过构建更小但更具区分性的评估子集,降低计算成本。
技术框架:论文构建的DatBench评估框架主要包含以下几个阶段:1) 数据集收集与整理:收集涵盖多种VLM能力的现有评估数据集。2) 数据清洗与转换:将多项选择题转换为生成式任务,并过滤盲目可解的问题和错误标注的样本。3) 子集构建:构建一个更小但更具区分性的评估子集DatBench,以降低计算成本。4) 模型评估:使用DatBench评估各种VLM模型的性能。
关键创新:论文的关键创新在于提出了一个系统性的VLM评估改进方法,包括将多项选择题转换为生成式任务、过滤盲目可解的问题和错误标注的样本,以及构建更具区分性的评估子集。这些方法能够显著提高VLM评估的保真度、区分性和效率。
关键设计:论文的关键设计包括:1) 将多项选择题转换为生成式任务的具体方法(未知)。2) 盲目可解问题的判断标准和过滤策略(未知)。3) 错误标注样本的识别和纠正方法(未知)。4) DatBench子集的构建方法,例如基于区分度指标进行样本选择(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将多项选择题转换为生成任务会导致模型能力下降高达35%。过滤盲目可解和标记错误的样本可以提高区分能力,同时降低计算成本。DatBench在密切匹配原始数据集的区分能力的同时,实现了13倍的平均加速(高达50倍)。
🎯 应用场景
该研究成果可应用于视觉-语言模型的开发和评估,帮助研究人员更准确地了解模型的能力,并指导模型训练和改进。此外,该研究提出的评估方法也可以推广到其他多模态模型的评估中,促进多模态人工智能的发展。
📄 摘要(原文)
Empirical evaluation serves as the primary compass guiding research progress in foundation models. Despite a large body of work focused on training frontier vision-language models (VLMs), approaches to their evaluation remain nascent. To guide their maturation, we propose three desiderata that evaluations should satisfy: (1) faithfulness to the modality and application, (2) discriminability between models of varying quality, and (3) efficiency in compute. Through this lens, we identify critical failure modes that violate faithfulness and discriminability, misrepresenting model capabilities: (i) multiple-choice formats reward guessing, poorly reflect downstream use cases, and saturate early as models improve; (ii) blindly solvable questions, which can be answered without images, constitute up to 70% of some evaluations; and (iii) mislabeled or ambiguous samples compromise up to 42% of examples in certain datasets. Regarding efficiency, the computational burden of evaluating frontier models has become prohibitive: by some accounts, nearly 20% of development compute is devoted to evaluation alone. Rather than discarding existing benchmarks, we curate them via transformation and filtering to maximize fidelity and discriminability. We find that converting multiple-choice questions to generative tasks reveals sharp capability drops of up to 35%. In addition, filtering blindly solvable and mislabeled samples improves discriminative power while simultaneously reducing computational cost. We release DatBench-Full, a cleaned evaluation suite of 33 datasets spanning nine VLM capabilities, and DatBench, a discriminative subset that achieves 13x average speedup (up to 50x) while closely matching the discriminative power of the original datasets. Our work outlines a path toward evaluation practices that are both rigorous and sustainable as VLMs continue to scale.