Grounding Descriptions in Images informs Zero-Shot Visual Recognition

作者: Shaunak Halbe, Junjiao Tian, K J Joseph, James Seale Smith, Katherine Stevo, Vineeth N Balasubramanian, Zsolt Kira

分类: cs.CV, cs.LG

发布日期: 2024-12-05

🔗 代码/项目: GITHUB

💡 一句话要点

GRAIN：通过图像区域描述对齐，提升零样本视觉识别能力

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 视觉-语言模型 图像描述 区域对齐 多模态学习 对比学习 预训练模型

📋 核心要点

现有视觉-语言模型在细粒度识别和未见概念泛化方面存在不足，原因是图像和文本表示的错位。
GRAIN通过联合学习图像区域的文本描述对齐和全局图像表示的标题对齐，来解决表示错位问题。
实验表明，GRAIN在多个图像分类数据集上优于现有方法，并在新数据集Products-2023上表现出色。

📝 摘要（中文）

CLIP等视觉-语言模型(VLMs)因其在开放词汇概念上的零样本视觉识别能力而备受青睐。这种能力通过选择文本表示与查询图像最相似的对象类别来实现。虽然在某些领域很成功，但这种方法在识别细粒度实体以及泛化到训练分布未捕获的未见概念时会遇到困难。最近的工作试图通过在测试时集成类别描述来缓解这些挑战，但改进有限。我们将这些有限的收益归因于图像和描述表示之间的根本错位，这源于CLIP的预训练结构。在本文中，我们提出了一种新的预训练策略GRAIN，旨在同时对齐细粒度和粗粒度的表示。我们的方法学习联合地将文本描述与图像区域对齐，并将总体标题与全局图像表示对齐。为了驱动这种预训练，我们利用冻结的多模态大型语言模型(MLLMs)来导出大规模的合成注释。我们证明了我们的模型在11个不同的图像分类数据集上，相比当前最先进的方法，具有增强的零样本性能。此外，我们引入了Products-2023，这是一个新策划的手动标记数据集，包含新的概念，并通过在该数据集上进行基准测试来展示我们的模型识别这些概念的能力。我们的模型在检索等其他下游任务上取得的显著改进进一步突出了我们的方法学习到的表示的卓越质量。

🔬 方法详解

问题定义：现有的视觉-语言模型，如CLIP，在零样本图像识别中表现出色，但当需要识别细粒度的对象或泛化到训练集中未出现的新概念时，性能会显著下降。这是因为图像和文本表示之间存在错位，CLIP的预训练方式没有充分地将图像区域和对应的文本描述对齐。

核心思路：GRAIN的核心思路是通过一种新的预训练策略，同时对齐图像的全局表示和局部区域的表示与对应的文本描述。具体来说，模型学习将图像区域的文本描述与图像区域对齐，同时将图像的全局标题与全局图像表示对齐。这样可以增强模型对图像内容的理解，提高其在细粒度识别和未见概念泛化方面的能力。

技术框架：GRAIN的整体框架包括两个主要的对齐任务：区域描述对齐和全局标题对齐。为了实现这些对齐，GRAIN利用冻结的多模态大型语言模型（MLLMs）生成大规模的合成注释，包括图像区域的描述和图像的标题。然后，GRAIN使用这些合成注释进行预训练，学习将图像区域和全局图像表示与对应的文本描述对齐。

关键创新：GRAIN的关键创新在于其同时对齐图像的全局和局部表示与文本描述。与以往只关注全局对齐的方法不同，GRAIN通过区域描述对齐，使模型能够更好地理解图像的局部细节，从而提高其在细粒度识别方面的能力。此外，GRAIN利用MLLMs生成大规模的合成注释，避免了人工标注的成本。

关键设计：GRAIN使用对比学习损失来对齐图像区域和全局图像表示与文本描述。具体来说，模型最小化正样本对（即图像区域和对应的文本描述，或全局图像和对应的标题）之间的距离，同时最大化负样本对之间的距离。此外，GRAIN还使用了一种自适应的权重策略，根据图像区域的重要性来调整区域描述对齐的权重。

🖼️ 关键图片

📊 实验亮点

GRAIN在11个不同的图像分类数据集上取得了显著的零样本性能提升，超过了当前最先进的方法。此外，GRAIN在Products-2023数据集上表现出色，证明了其识别新概念的能力。在检索等下游任务上的改进进一步验证了GRAIN学习到的表示的卓越质量。

🎯 应用场景

GRAIN的潜在应用领域包括图像搜索、图像标注、视觉问答、机器人导航等。通过提高零样本图像识别的准确性，GRAIN可以使这些应用在更广泛的场景中发挥作用，例如在没有标注数据的情况下识别新的产品或场景，或者帮助机器人理解复杂的视觉环境。

📄 摘要（原文）

Vision-language models (VLMs) like CLIP have been cherished for their ability to perform zero-shot visual recognition on open-vocabulary concepts. This is achieved by selecting the object category whose textual representation bears the highest similarity with the query image. While successful in some domains, this method struggles with identifying fine-grained entities as well as generalizing to unseen concepts that are not captured by the training distribution. Recent works attempt to mitigate these challenges by integrating category descriptions at test time, albeit yielding modest improvements. We attribute these limited gains to a fundamental misalignment between image and description representations, which is rooted in the pretraining structure of CLIP. In this paper, we propose GRAIN, a new pretraining strategy aimed at aligning representations at both fine and coarse levels simultaneously. Our approach learns to jointly ground textual descriptions in image regions along with aligning overarching captions with global image representations. To drive this pre-training, we leverage frozen Multimodal Large Language Models (MLLMs) to derive large-scale synthetic annotations. We demonstrate the enhanced zero-shot performance of our model compared to current state-of-the art methods across 11 diverse image classification datasets. Additionally, we introduce Products-2023, a newly curated, manually labeled dataset featuring novel concepts, and showcase our model's ability to recognize these concepts by benchmarking on it. Significant improvements achieved by our model on other downstream tasks like retrieval further highlight the superior quality of representations learned by our approach. Code available at https://github.com/shaunak27/grain-clip .

Grounding Descriptions in Images informs Zero-Shot Visual Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理