How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks
作者: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-07-02 (更新: 2025-07-23)
备注: Project page at https://fm-vision-evals.epfl.ch/
💡 一句话要点
评估GPT-4o等多模态模型在标准计算机视觉任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 计算机视觉 基准测试 提示工程 GPT-4o
📋 核心要点
- 现有方法难以直接评估多模态模型在传统计算机视觉任务中的表现,因为这些模型主要设计用于文本输出。
- 论文提出一种基于提示链的标准化评估框架,将视觉任务转化为文本提示任务,从而评估API访问模型的性能。
- 实验结果表明,多模态模型作为通用模型表现良好,但在特定视觉任务上与专用模型相比仍有差距,且存在幻觉等问题。
📝 摘要(中文)
本文旨在评估包括GPT-4o在内的多模态基础模型在计算机视觉理解方面的能力。研究对多个主流模型(GPT-4o, o4-mini, Gemini 1.5 Pro/2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)在语义分割、目标检测、图像分类、深度和表面法线预测等标准视觉任务上进行了基准测试,使用了COCO、ImageNet及其变体等常用数据集。由于这些模型主要输出文本且许多模型为API访问,研究通过提示链将标准视觉任务转化为文本可提示和API兼容的任务,构建了标准化评估框架。结果表明,这些模型在任何任务上均未达到SOTA水平,但作为通用模型表现尚可,尤其擅长语义任务。GPT-4o在非推理模型中表现最佳,在6项任务中的4项中名列前茅。初步分析表明,具备原生图像生成能力的模型(如GPT-4o)存在幻觉和空间错位等问题。
🔬 方法详解
问题定义:现有的大型多模态模型,如GPT-4o,在视觉理解方面的能力尚不明确。直接评估这些模型的困难在于,它们主要设计用于生成文本,难以直接输出语义分割、深度图等视觉任务所需的结构化信息。此外,许多先进模型仅提供API访问,无法进行权重调整。
核心思路:论文的核心思路是将传统的计算机视觉任务转化为可以通过文本提示来解决的任务。通过设计合适的提示语,引导模型输出与视觉任务相关的文本描述,然后将这些文本描述转化为可量化的指标,从而评估模型的视觉理解能力。这种方法允许在不访问模型权重的情况下,对各种多模态模型进行公平的比较。
技术框架:该研究构建了一个标准化的基准测试框架,主要包含以下几个阶段:1) 任务定义:选择标准的计算机视觉任务,如语义分割、目标检测等。2) 提示工程:设计合适的提示语,将视觉任务转化为文本提示任务。例如,对于语义分割,提示模型描述图像中不同区域的类别。3) 模型推理:使用不同的多模态模型对提示语进行推理,生成文本描述。4) 结果解析:将模型的文本输出解析为相应的视觉结果,例如分割掩码、目标框等。5) 性能评估:使用标准的评价指标,如mIOU、AP等,评估模型的性能。
关键创新:该研究的关键创新在于提出了基于提示链的标准化评估框架,该框架能够将传统的计算机视觉任务转化为文本提示任务,从而评估API访问的多模态模型的视觉理解能力。这种方法避免了直接访问模型权重,使得对各种模型的公平比较成为可能。
关键设计:在提示工程方面,研究人员设计了多样的提示策略,例如使用不同的提示语模板、调整提示语的详细程度等,以探索模型对提示语的敏感性。此外,研究还对模型的输出结果进行了后处理,例如使用规则或模型对输出进行修正,以提高评估的准确性。对于具备原生图像生成能力的模型,研究人员分析了其生成图像的质量,并关注了幻觉和空间错位等问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在非推理模型中表现最佳,在6项任务中的4项中名列前茅。虽然所有模型在任何任务上均未达到SOTA水平,但作为通用模型表现尚可,尤其擅长语义任务。研究还发现,具备原生图像生成能力的模型(如GPT-4o)存在幻觉和空间错位等问题。
🎯 应用场景
该研究成果可应用于评估和比较不同多模态模型在计算机视觉任务上的性能,为模型选择和优化提供参考。此外,该研究提出的基于提示链的评估框架可以推广到其他领域,例如机器人导航、医学图像分析等,促进多模态模型在更广泛的应用场景中的发展。
📄 摘要(原文)
Multimodal foundation models, such as GPT-4o, have recently made remarkable progress, but it is not clear where exactly these models stand in terms of understanding vision. In this paper, we benchmark the performance of popular multimodal foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro and Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) on standard computer vision tasks (semantic segmentation, object detection, image classification, depth and surface normal prediction) using established datasets (e.g., COCO, ImageNet and its variants, etc). The main challenges to performing this are: 1) most models are trained to output text and cannot natively express versatile domains, such as segments or 3D geometry, and 2) many leading models are proprietary and accessible only at an API level, i.e., there is no weight access to adapt them. We address these challenges by translating standard vision tasks into equivalent text-promptable and API-compatible tasks via prompt chaining to create a standardized benchmarking framework. We observe that 1) the models are not close to the state-of-the-art specialist models at any task. However, 2) they are respectable generalists; this is remarkable as they are presumably trained on primarily image-text-based tasks. 3) They perform semantic tasks notably better than geometric ones. 4) While the prompt-chaining techniques affect performance, better models exhibit less sensitivity to prompt variations. 5) GPT-4o performs the best among non-reasoning models, securing the top position in 4 out of 6 tasks, 6) reasoning models, e.g. o3, show improvements in geometric tasks, and 7) a preliminary analysis of models with native image generation, like the latest GPT-4o, shows they exhibit quirks like hallucinations and spatial misalignments.