Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach

📄 arXiv: 2410.23676v1 📥 PDF

作者: Mathilde Caron, Alireza Fathi, Cordelia Schmid, Ahmet Iscen

分类: cs.CV

发布日期: 2024-10-31

备注: NeurIPS 2024


💡 一句话要点

提出一种LLM驱动的数据方法,用于Web规模视觉实体识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉实体识别 大型语言模型 数据增强 自动标注 多模态学习

📋 核心要点

  1. Web规模视觉实体识别缺乏大规模、高质量的训练数据,限制了模型性能。
  2. 利用多模态LLM,通过推理候选标签和生成上下文信息来自动构建高质量数据集。
  3. 实验表明,使用该方法构建的数据集训练的模型在视觉实体识别任务上取得了显著的性能提升。

📝 摘要(中文)

Web规模视觉实体识别,即在像维基百科这样的大型知识库中将图像与其对应的实体关联起来,由于缺乏干净的大规模训练数据而面临重大挑战。本文提出了一种新颖的方法来整理这样的数据集,利用多模态大型语言模型(LLM)进行标签验证、元数据生成和理由解释。我们没有依赖多模态LLM直接标注数据(我们发现这样做效果不佳),而是提示它通过访问额外的上下文相关信息(例如维基百科)来推理潜在的候选实体标签,从而获得更准确的注释。我们进一步使用多模态LLM通过生成问答对和细粒度的文本描述(称为“理由”)来丰富数据集,该描述解释了图像与其分配的实体之间的联系。实验表明,在此自动整理的数据上训练的模型在Web规模视觉实体识别任务上实现了最先进的性能(例如,OVEN实体任务提高了+6.9%),突出了高质量训练数据在该领域的重要性。

🔬 方法详解

问题定义:论文旨在解决Web规模视觉实体识别任务中缺乏大规模、高质量训练数据的问题。现有方法要么依赖人工标注,成本高昂且难以扩展;要么使用噪声较大的自动标注方法,导致模型性能受限。因此,如何高效地构建一个干净、大规模的训练数据集是该领域面临的关键挑战。

核心思路:论文的核心思路是利用多模态大型语言模型(LLM)的推理能力,辅助数据标注和增强。不同于直接使用LLM进行标注,论文更侧重于利用LLM验证候选标签的合理性,并生成上下文信息(如理由和问答对),从而提高数据质量。这种方法旨在结合LLM的知识和推理能力,克服传统自动标注方法的噪声问题。

技术框架:整体流程包括以下几个主要阶段:1) 候选实体标签生成:使用传统方法(具体方法未知)为图像生成候选实体标签。2) LLM标签验证:提示LLM访问外部知识(如维基百科),对候选标签进行推理和验证,选择最合适的标签。3) 数据增强:利用LLM生成图像与实体之间的关联理由(rationale)以及问答对,丰富数据集的信息。4) 模型训练:使用自动构建的数据集训练视觉实体识别模型。

关键创新:最重要的技术创新点在于利用LLM进行标签验证和上下文信息生成,从而提高自动标注数据的质量。与直接使用LLM进行标注相比,该方法更侧重于利用LLM的推理能力,减少了LLM幻觉带来的噪声。此外,生成理由和问答对可以为模型提供更丰富的训练信号,提升模型的泛化能力。

关键设计:论文中关于LLM的prompt设计是关键。具体prompt内容未知,但其核心思想是引导LLM基于外部知识对候选标签进行推理和验证。此外,如何有效地利用生成的理由和问答对进行模型训练也是一个重要的设计考虑,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该方法自动构建的数据集训练的模型在Web规模视觉实体识别任务上取得了显著的性能提升,例如在OVEN实体任务上提高了+6.9%。这表明高质量的训练数据对于该领域至关重要,并且该方法能够有效地利用LLM生成高质量的训练数据。

🎯 应用场景

该研究成果可广泛应用于图像搜索、智能推荐、知识图谱构建等领域。通过提升视觉实体识别的准确率,可以改善用户在图像搜索中的体验,提高推荐系统的相关性,并为知识图谱的自动构建提供更可靠的数据来源。未来,该方法有望应用于更多需要大规模视觉数据支持的任务中。

📄 摘要(原文)

Web-scale visual entity recognition, the task of associating images with their corresponding entities within vast knowledge bases like Wikipedia, presents significant challenges due to the lack of clean, large-scale training data. In this paper, we propose a novel methodology to curate such a dataset, leveraging a multimodal large language model (LLM) for label verification, metadata generation, and rationale explanation. Instead of relying on the multimodal LLM to directly annotate data, which we found to be suboptimal, we prompt it to reason about potential candidate entity labels by accessing additional contextually relevant information (such as Wikipedia), resulting in more accurate annotations. We further use the multimodal LLM to enrich the dataset by generating question-answer pairs and a grounded finegrained textual description (referred to as "rationale") that explains the connection between images and their assigned entities. Experiments demonstrate that models trained on this automatically curated data achieve state-of-the-art performance on web-scale visual entity recognition tasks (e.g. +6.9% improvement in OVEN entity task), underscoring the importance of high-quality training data in this domain.