Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation

📄 arXiv: 2504.14988v2 📥 PDF

作者: Hong-Tao Yu, Xiu-Shen Wei, Yuxin Peng, Serge Belongie

分类: cs.CV

发布日期: 2025-04-21 (更新: 2025-05-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出FG-BMK基准,全面评估大型视觉语言模型在细粒度图像任务上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 细粒度图像识别 评估基准 多模态学习 计算机视觉

📋 核心要点

  1. 现有LVLMs评估缺乏对细粒度图像任务的深入考察,无法全面反映其在计算机视觉基础任务上的能力。
  2. 构建FG-BMK基准,从语义识别和细粒度特征表示角度,系统评估LVLMs在细粒度图像任务上的性能。
  3. 通过实验揭示了训练范式、模态对齐等因素对LVLMs性能的影响,为未来模型设计提供指导。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在多模态感知方面取得了显著进展,引起了广泛关注。虽然涌现了大量评估LVLMs的整体性能和特定任务的研究,但对计算机视觉基础的细粒度图像任务的探索仍然不足。为了填补这一空白,我们引入了一个全面的细粒度评估基准,即FG-BMK,包含101万个问题和33万张图像。我们的评估从以人为本和以机器为本的角度系统地检查LVLMs,重点关注它们的语义识别和细粒度特征表示能力。通过对十二个代表性LVLMs/VLMs的广泛实验,我们揭示了训练范式、模态对齐、扰动敏感性和细粒度类别推理对任务性能的关键影响。这项工作为当前LVLMs的局限性提供了重要的见解,并为未来更先进的LVLMs的数据构建和模型设计提供了指导。我们的代码已开源,可在https://github.com/SEU-VIPGroup/FG-BMK获取。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLMs)在通用视觉任务上表现出色,但在细粒度图像任务上的性能评估不足。这些任务需要模型具备精确的语义理解和细致的特征表示能力,而现有评估方法往往侧重于宏观层面的理解,忽略了模型在处理细微差异方面的不足。因此,如何全面、深入地评估LVLMs在细粒度图像任务上的性能成为一个亟待解决的问题。

核心思路:论文的核心思路是构建一个专门针对细粒度图像任务的评估基准,即FG-BMK。该基准包含大量高质量的图像和问题,涵盖了多种细粒度类别和任务类型。通过在该基准上对LVLMs进行系统性的评估,可以更准确地了解模型在细粒度图像理解方面的能力,并发现其潜在的局限性。这种方法的设计旨在弥补现有评估体系的不足,为LVLMs的进一步发展提供有价值的参考。

技术框架:FG-BMK基准的构建主要包括数据收集、问题生成和评估指标设计三个阶段。首先,收集大量的细粒度图像数据,涵盖多个类别和场景。然后,基于这些图像,设计多种类型的问题,包括语义识别、属性判断、关系推理等,以全面评估LVLMs的理解能力。最后,设计合理的评估指标,用于衡量模型在不同任务上的性能。整个框架旨在构建一个全面、客观、可信的细粒度图像任务评估平台。

关键创新:该论文的关键创新在于构建了一个大规模、高质量的细粒度图像任务评估基准FG-BMK。与现有的通用视觉任务评估基准相比,FG-BMK更加关注模型在处理细微差异方面的能力,能够更准确地反映模型在细粒度图像理解方面的性能。此外,FG-BMK还提供了多种类型的问题和评估指标,可以对LVLMs进行多方面的评估。

关键设计:FG-BMK基准的关键设计包括:1) 图像数据的选择,侧重于包含细粒度差异的图像;2) 问题生成策略,采用多种方法生成不同类型的问题,以覆盖不同的评估维度;3) 评估指标的设计,采用精确率、召回率、F1值等指标,以全面衡量模型的性能。此外,为了保证评估的公平性,论文还对数据进行了清洗和标注,并对评估过程进行了标准化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的LVLMs在FG-BMK基准上表现出一定的局限性,尤其是在处理细粒度类别推理和对扰动敏感性方面。通过对12个代表性LVLMs/VLMs的评估,揭示了训练范式和模态对齐对性能的影响,为未来模型设计提供了重要参考。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在细粒度图像识别领域的性能,例如在动植物识别、医学图像分析、工业质检等领域。通过更精确的图像理解,可以提高相关应用的准确性和可靠性,为实际应用带来价值。

📄 摘要(原文)

Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated remarkable multimodal perception capabilities, garnering significant attention. While numerous evaluation studies have emerged, assessing LVLMs both holistically and on specialized tasks, fine-grained image tasks-fundamental to computer vision-remain largely unexplored. To fill this gap, we introduce a comprehensive fine-grained evaluation benchmark, i.e., FG-BMK, comprising 1.01 million questions and 0.33 million images. Our evaluation systematically examines LVLMs from both human-oriented and machine-oriented perspectives, focusing on their semantic recognition and fine-grained feature representation capabilities. Through extensive experiments on twelve representative LVLMs/VLMs, we uncover key findings regarding the influence of training paradigms, modality alignment, perturbation susceptibility, and fine-grained category reasoning on task performance. This work provides critical insights into the limitations of current LVLMs and offers guidance for future data construction and model design in the development of more advanced LVLMs. Our code is open-source and available at https://github.com/SEU-VIPGroup/FG-BMK.