Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

📄 arXiv: 2312.03766v2 📥 PDF

作者: Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen, Dani Lischinski, Daniel Cohen-Or, Idan Szpektor

分类: cs.CL, cs.CV

发布日期: 2023-12-05 (更新: 2024-07-17)

期刊: ECCV 2024


💡 一句话要点

提出Mismatch Quest,通过视觉和文本反馈解决图像-文本对齐中的错配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像-文本对齐 错配检测 视觉语言模型 大型语言模型 视觉Grounding

📋 核心要点

  1. 现有图像-文本对齐模型缺乏对错配原因的精确定位能力,限制了其应用。
  2. 利用大型语言模型和视觉 grounding 模型,自动构建包含错配标题、文本解释和视觉指示的训练集。
  3. 通过在自构建数据集上微调视觉语言模型,显著提升了模型在错配解释和视觉指示方面的性能。

📝 摘要(中文)

现有的图像-文本对齐模型在二元对齐评估方面表现出色,但无法精确定位错配的确切来源。本文提出了一种方法,能够为检测到的图像-文本对之间的错配提供详细的文本和视觉解释。我们利用大型语言模型和视觉 grounding 模型自动构建训练集,该训练集包含给定图像的合理的错配标题以及相应的文本解释和视觉指示。我们还发布了一个新的人工标注的测试集,其中包含 ground-truth 文本和视觉错配注释。实验结果表明,在我们的训练集上微调视觉语言模型能够使其表达错配并在图像中以视觉方式指示它们,从而在二元对齐分类和解释生成任务上均优于强大的基线模型。我们的方法代码和人工标注的测试集可在https://mismatch-quest.github.io/ 获取。

🔬 方法详解

问题定义:论文旨在解决图像-文本对齐任务中,现有模型只能判断图像和文本是否对齐,但无法给出详细的错配原因和位置的问题。现有方法的痛点在于缺乏对错配的细粒度理解和解释能力,难以应用于需要精确诊断和纠正错配的场景。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成合理的错配文本,并利用视觉 grounding 模型定位错配区域,从而构建一个包含错配文本、文本解释和视觉指示的训练数据集。然后,通过在该数据集上微调视觉语言模型,使其具备解释和定位错配的能力。

技术框架:整体框架包含以下几个主要步骤:1) 利用 LLM 生成与图像内容不符的错配文本;2) 利用视觉 grounding 模型将错配文本中的关键词与图像区域关联;3) 人工标注少量数据作为测试集;4) 使用自构建的训练集微调视觉语言模型;5) 在人工标注的测试集上评估模型性能。

关键创新:最重要的技术创新点在于自动构建包含错配信息的数据集。与以往依赖人工标注的数据集不同,该方法利用 LLM 和视觉 grounding 模型自动生成大量高质量的错配数据,显著降低了数据标注成本,并提高了模型泛化能力。

关键设计:论文的关键设计包括:1) 使用特定的 prompt 工程来引导 LLM 生成多样化的错配文本;2) 设计合适的损失函数,鼓励模型生成准确的文本解释和视觉指示;3) 选择合适的视觉语言模型作为 backbone,并进行有效的微调。

📊 实验亮点

实验结果表明,在自构建数据集上微调的视觉语言模型在二元对齐分类和解释生成任务上均优于强大的基线模型。具体而言,模型能够更准确地识别图像-文本对中的错配,并生成更具解释性的文本描述和更精确的视觉指示。

🎯 应用场景

该研究成果可应用于图像-文本检索、图像描述生成、视觉问答等领域。例如,在电商场景中,可以用于检测商品图片与描述是否一致,提高用户购物体验。未来,该技术有望应用于更广泛的多模态理解和生成任务,例如辅助医学影像诊断、智能客服等。

📄 摘要(原文)

While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. We leverage large language models and visual grounding models to automatically construct a training set that holds plausible misaligned captions for a given image and corresponding textual explanations and visual indicators. We also publish a new human curated test set comprising ground-truth textual and visual misalignment annotations. Empirical results show that fine-tuning vision language models on our training set enables them to articulate misalignments and visually indicate them within images, outperforming strong baselines both on the binary alignment classification and the explanation generation tasks. Our method code and human curated test set are available at: https://mismatch-quest.github.io/