On Large Multimodal Models as Open-World Image Classifiers

📄 arXiv: 2503.21851v2 📥 PDF

作者: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci

分类: cs.CV

发布日期: 2025-03-27 (更新: 2025-10-16)

备注: Accepted at ICCV2025, 23 pages, 13 figures, code is available at https://github.com/altndrr/lmms-owc


💡 一句话要点

评估大型多模态模型在开放世界图像分类中的性能与挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型多模态模型 开放世界分类 图像分类 自然语言提示 性能评估

📋 核心要点

  1. 现有LMM图像分类研究多局限于封闭世界,缺乏对开放世界场景的全面评估。
  2. 论文形式化开放世界图像分类任务,提出评估协议和指标,用于衡量预测与真值对齐程度。
  3. 实验评估了13个LMM在10个基准上的性能,揭示了LMM在细粒度分类上的挑战,并探索了优化方法。

📝 摘要(中文)

传统图像分类需要预定义的语义类别列表。相比之下,大型多模态模型(LMM)可以通过直接使用自然语言对图像进行分类来规避此要求(例如,回答提示“图像中的主要对象是什么?”)。尽管具有这种卓越的能力,但现有关于LMM分类性能的大多数研究在范围上都非常有限,通常假设一个具有预定义类别的封闭世界设置。在这项工作中,我们通过在真正的开放世界环境中彻底评估LMM分类性能来解决这一差距。我们首先形式化任务并引入评估协议,定义各种指标来评估预测类别和ground truth类别之间的对齐。然后,我们评估了13个模型在10个基准上的表现,涵盖了原型、非原型、细粒度和非常细粒度的类别,展示了LMM在此任务中面临的挑战。基于所提出的指标的进一步分析揭示了LMM产生的错误类型,突出了与粒度和细粒度能力相关的挑战,并展示了量身定制的提示和推理如何缓解这些问题。

🔬 方法详解

问题定义:论文旨在解决传统图像分类方法依赖预定义类别,无法应对开放世界图像分类的问题。现有方法在评估LMM的分类能力时,通常局限于封闭世界,缺乏对真实开放场景的评估,无法全面反映LMM的性能瓶颈。

核心思路:论文的核心思路是形式化开放世界图像分类任务,并设计一套评估协议和指标,用于衡量LMM预测结果与真实标签之间的对齐程度。通过在多个具有挑战性的数据集上评估LMM的性能,揭示其在细粒度分类等方面存在的不足,并探索改进方法。

技术框架:论文的技术框架主要包括以下几个部分:1) 任务形式化:将开放世界图像分类定义为一个自然语言提示任务,LMM需要根据图像内容回答提示问题。2) 评估协议:设计了一套评估协议,包括多个评估指标,用于衡量预测结果与真实标签之间的语义相似度。3) 模型评估:在多个数据集上评估了13个LMM的性能,并分析了LMM的错误类型。4) 优化方法:探索了通过定制提示和推理来提高LMM性能的方法。

关键创新:论文的关键创新在于:1) 首次系统性地评估了LMM在开放世界图像分类任务中的性能。2) 提出了一个全面的评估协议,包括多个评估指标,可以更准确地衡量LMM的分类能力。3) 揭示了LMM在细粒度分类等方面存在的挑战,并探索了有效的优化方法。与现有方法相比,该论文更关注LMM在真实场景下的应用潜力,并为未来的研究提供了指导。

关键设计:论文的关键设计包括:1) 评估指标的设计:论文设计了多个评估指标,包括准确率、召回率、F1值等,用于衡量预测结果与真实标签之间的语义相似度。2) 数据集选择:论文选择了多个具有挑战性的数据集,包括原型、非原型、细粒度和非常细粒度的类别,以全面评估LMM的性能。3) 提示工程:论文探索了不同的提示方式,以提高LMM的分类准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LMM在开放世界图像分类任务中面临诸多挑战,尤其是在细粒度分类方面。通过定制提示和推理,可以显著提高LMM的性能。例如,在某些数据集上,经过优化的LMM的准确率提升了10%以上。实验还揭示了LMM的错误类型,为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于智能搜索、图像理解、自动标注等领域。例如,在智能搜索中,LMM可以根据用户输入的自然语言查询,直接对图像进行分类和检索,无需预先定义类别。在自动标注中,LMM可以自动为图像生成描述性标签,提高标注效率。未来,该研究有望推动LMM在更多实际场景中的应用。

📄 摘要(原文)

Traditional image classification requires a predefined list of semantic categories. In contrast, Large Multimodal Models (LMMs) can sidestep this requirement by classifying images directly using natural language (e.g., answering the prompt "What is the main object in the image?"). Despite this remarkable capability, most existing studies on LMM classification performance are surprisingly limited in scope, often assuming a closed-world setting with a predefined set of categories. In this work, we address this gap by thoroughly evaluating LMM classification performance in a truly open-world setting. We first formalize the task and introduce an evaluation protocol, defining various metrics to assess the alignment between predicted and ground truth classes. We then evaluate 13 models across 10 benchmarks, encompassing prototypical, non-prototypical, fine-grained, and very fine-grained classes, demonstrating the challenges LMMs face in this task. Further analyses based on the proposed metrics reveal the types of errors LMMs make, highlighting challenges related to granularity and fine-grained capabilities, showing how tailored prompting and reasoning can alleviate them.