Rethinking VLMs and LLMs for Image Classification

📄 arXiv: 2410.14690v1 📥 PDF

作者: Avi Cooper, Keizo Kato, Chia-Hsien Shih, Hiroaki Yamane, Kasper Vinken, Kentaro Takemoto, Taro Sunagawa, Hao-Wei Yeh, Jin Yamanaka, Ian Mason, Xavier Boix

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-10-03


💡 一句话要点

提出轻量级LLM路由,提升视觉任务在VLM中的分类精度与效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 大型语言模型 图像分类 任务路由 轻量级模型

📋 核心要点

  1. 现有VLM在图像分类任务中,集成LLM后性能提升不明显,甚至可能下降,尤其是在物体和场景识别方面。
  2. 提出一种轻量级LLM路由方案,根据视觉任务类型,动态选择最合适的VLM,从而优化整体性能。
  3. 实验表明,该方案在精度上可媲美甚至超越GPT-4V和HuggingGPT等先进模型,同时降低了计算成本。

📝 摘要(中文)

视觉语言模型(VLM)正日益与大型语言模型(LLM)融合,以实现更强的交互性和开放式响应能力。然而,LLM对于提升图像分类这一长期关键问题的贡献尚不明确。通过对七个模型、十个视觉理解数据集和每个数据集的多种提示变体进行大量实验,我们发现,对于物体和场景识别,不利用LLM的VLM可以获得比利用LLM的VLM更好的性能。但同时,利用LLM可以提高需要推理和外部知识的任务的性能。针对这些挑战,我们提出了一种实用的解决方案:一种轻量级的修复方案,涉及一个相对较小的LLM,它可以有效地将视觉任务路由到最适合该任务的模型。LLM路由器使用从超过250万个视觉任务和模型准确率配对示例构建的数据集进行训练。结果表明,这种轻量级修复方案超越或匹配了最先进的替代方案(包括GPT-4V和HuggingGPT)的准确性,同时提高了成本效益。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在图像分类任务中,集成大型语言模型(LLM)后性能提升不明显,甚至在某些情况下出现性能下降的问题。现有方法通常直接将LLM与VLM结合,忽略了不同视觉任务对模型能力的需求差异,导致资源浪费和性能瓶颈。

核心思路:核心思路是引入一个轻量级的LLM作为路由器,根据输入的视觉任务类型,动态地选择最适合该任务的VLM。这种方法避免了对所有任务都使用大型LLM,从而提高了效率和准确性。路由器LLM学习将任务特征与不同VLM的性能关联起来,实现智能的任务分配。

技术框架:整体框架包含三个主要模块:1) 视觉任务输入模块:接收图像和任务描述;2) LLM路由器:分析任务描述,预测不同VLM在该任务上的性能,并选择最佳VLM;3) VLM执行模块:根据LLM路由器的选择,将任务分配给相应的VLM进行处理,并输出结果。路由器LLM使用一个小型transformer模型,例如DistilBERT。

关键创新:最重要的创新点在于引入了LLM路由器,实现了视觉任务的动态路由。与直接将LLM与VLM结合的方法相比,该方法能够根据任务类型选择最合适的模型,从而提高了整体性能和效率。此外,轻量级LLM路由器的设计降低了计算成本,使其更易于部署。

关键设计:LLM路由器使用一个小型transformer模型进行训练。训练数据由超过250万个视觉任务和模型准确率配对示例组成。损失函数采用交叉熵损失,目标是最大化路由器选择正确VLM的概率。关键参数包括transformer模型的层数、隐藏层大小和注意力头数。此外,论文还探索了不同的提示工程方法,以提高LLM路由器对任务描述的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个视觉理解数据集上取得了显著的性能提升。例如,在某些数据集上,该方法超越了GPT-4V和HuggingGPT等先进模型,同时降低了计算成本。具体而言,轻量级LLM路由方案在物体和场景识别任务上表现出色,证明了其在特定视觉任务上的有效性。

🎯 应用场景

该研究成果可应用于智能图像搜索、自动驾驶、机器人导航等领域。通过动态选择最合适的视觉模型,可以提高图像识别的准确性和效率,降低计算成本。未来,该方法有望扩展到更广泛的多模态任务中,例如视频理解、语音识别等,实现更智能、更高效的人工智能系统。

📄 摘要(原文)

Visual Language Models (VLMs) are now increasingly being merged with Large Language Models (LLMs) to enable new capabilities, particularly in terms of improved interactivity and open-ended responsiveness. While these are remarkable capabilities, the contribution of LLMs to enhancing the longstanding key problem of classifying an image among a set of choices remains unclear. Through extensive experiments involving seven models, ten visual understanding datasets, and multiple prompt variations per dataset, we find that, for object and scene recognition, VLMs that do not leverage LLMs can achieve better performance than VLMs that do. Yet at the same time, leveraging LLMs can improve performance on tasks requiring reasoning and outside knowledge. In response to these challenges, we propose a pragmatic solution: a lightweight fix involving a relatively small LLM that efficiently routes visual tasks to the most suitable model for the task. The LLM router undergoes training using a dataset constructed from more than 2.5 million examples of pairs of visual task and model accuracy. Our results reveal that this lightweight fix surpasses or matches the accuracy of state-of-the-art alternatives, including GPT-4V and HuggingGPT, while improving cost-effectiveness.