WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark
作者: Yida Yin, Harish Krishnakumar, Chung Peng Lee, Boya Zeng, Wenhao Chai, Shengbang Tong, Wenhu Chen, Hu Xu, Xingyu Fu, Gabriel Sarch, Aleksandra Korolova, Zhuang Liu
分类: cs.CV
发布日期: 2026-06-04
备注: Project page: https://worldbench-vl.github.io/
💡 一句话要点
提出WorldBench以解决多模态模型在视觉理解中的不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 视觉理解 大型语言模型 基准测试 视觉多样性 图像策划 挑战性问题设计
📋 核心要点
- 现有多模态基准未能有效捕捉开放式视觉输入所需的视觉多样性,导致模型在实际应用中的表现不佳。
- 本文提出WorldBench,通过构建视觉概念分类法和策划多样化图像集合,设计出具有挑战性的推理问题,以评估MLLMs的视觉理解能力。
- 实验结果显示,WorldBench在视觉多样性方面超越现有基准,15个MLLMs的评估结果揭示了其在视觉理解上的显著弱点。
📝 摘要(中文)
在现实应用中,模型需要在多样化的环境中可靠地执行任务。然而,许多现有的多模态基准虽然扩展了任务类型,却未能捕捉到处理开放式视觉输入所需的视觉多样性。本文提出了WorldBench,一个具有挑战性且视觉多样化的推理基准,用于评估多模态大型语言模型(MLLMs)。我们构建了一个涵盖多个领域(如生物体)的数千个视觉概念的分类法,并基于此分类法从搜索引擎和现有数据集中策划了广泛的图像集合,以全面代表视觉世界。通过结构化的试错过程,我们手动设计了前沿MLLMs难以回答的挑战性问题。定量和人工评估表明,WorldBench在视觉多样性方面优于任何现有的多样化基准。对15个MLLMs在WorldBench上的评估揭示了视觉理解的弱点:即使是最强的模型准确率也仅为64.0%,而一些模型的表现仅略高于随机水平。我们希望我们的工作强调了在构建多模态基准中视觉多样性的重要性。
🔬 方法详解
问题定义:本文旨在解决现有多模态基准在视觉多样性方面的不足,导致模型在开放式视觉输入中的表现不佳。
核心思路:通过构建一个涵盖多领域的视觉概念分类法,策划多样化的图像集合,并设计具有挑战性的推理问题,从而全面评估多模态大型语言模型的视觉理解能力。
技术框架:整体架构包括三个主要模块:1) 视觉概念分类法的构建,2) 多样化图像的策划,3) 挑战性问题的设计与评估。
关键创新:最重要的创新在于通过系统化的试错过程,手动设计出前沿MLLMs难以回答的问题,从而有效评估其视觉理解能力。与现有方法相比,WorldBench在视觉多样性上具有显著提升。
关键设计:在参数设置上,采用了多样化的图像来源和问题类型,确保评估的全面性和挑战性。损失函数和网络结构的具体细节未在摘要中提及,需参考完整论文以获取更多信息。
🖼️ 关键图片
📊 实验亮点
实验结果显示,WorldBench在视觉多样性方面超越了现有基准,15个MLLMs的评估中,最强模型仅达到64.0%的准确率,部分模型的表现仅略高于随机水平,揭示了当前模型在视觉理解上的显著弱点。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动驾驶、机器人视觉等,能够帮助提升多模态模型在复杂视觉环境中的理解能力。通过提供更具挑战性的基准,推动多模态模型的进一步发展,提升其在实际应用中的可靠性和准确性。
📄 摘要(原文)
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.