Improved Visual Grounding through Self-Consistent Explanations

作者: Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez

分类: cs.CV, cs.CL, cs.LG

发布日期: 2023-12-07

备注: Project Page: https://catherine-r-he.github.io/SelfEQ/

💡 一句话要点

提出SelfEQ自洽解释方法，提升视觉定位模型的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 视觉解释 自洽学习 弱监督学习 文本释义 视觉-语言模型 GradCAM

📋 核心要点

现有的视觉-语言模型在定位图像中的特定对象时，受到词汇量和解释质量的限制。
论文提出SelfEQ方法，通过生成释义并约束其视觉解释一致性，来提升模型的定位能力。
实验结果表明，SelfEQ在多个数据集上显著提升了视觉定位的准确率，尤其是在无边界框标注的情况下。

📝 摘要（中文）

本文提出了一种通过自洽视觉解释来改进视觉定位（grounding）能力的方法。该方法通过使用大型语言模型生成文本-图像数据集的释义，并引入SelfEQ弱监督策略，鼓励释义在视觉解释图上保持自洽性。具体来说，对于一个输入的文本短语，模型尝试生成一个释义，并进行微调，使得原始短语和释义映射到图像中的相同区域。这种方法既扩展了模型能够处理的词汇量，又提高了基于梯度的视觉解释方法（如GradCAM）所突出显示的对象位置的质量。实验表明，SelfEQ在Flickr30k、ReferIt和RefCOCO+数据集上优于强大的基线方法和先前的研究工作。尤其是在不使用任何类型的边界框标注的情况下，在Flickr30k上获得了84.07%的准确率（绝对提升4.69%），在ReferIt上获得了67.40%的准确率（绝对提升7.68%），在RefCOCO+测试集A和B上分别获得了75.10%和55.49%的准确率（平均绝对提升3.74%）。

🔬 方法详解

问题定义：视觉定位旨在根据给定的文本描述，在图像中找到对应的区域。现有方法通常依赖于大量的标注数据，并且在处理未见过的词汇或复杂描述时表现不佳。此外，基于梯度的视觉解释方法（如GradCAM）生成的解释图可能不够准确，导致定位效果不理想。

核心思路：论文的核心思路是利用文本释义来增强模型的泛化能力和解释能力。通过生成与原始文本含义相同但表达不同的释义，并强制模型对原始文本和释义给出一致的视觉解释，从而提高模型对不同表达方式的鲁棒性，并改善视觉解释图的质量。

技术框架：整体框架包括以下几个主要步骤：1) 使用大型语言模型（LLM）为现有的文本-图像数据集生成释义；2) 使用视觉-语言模型提取图像和文本的特征；3) 使用基于梯度的视觉解释方法（如GradCAM）生成视觉解释图；4) 引入SelfEQ损失函数，鼓励原始文本和释义的视觉解释图尽可能相似；5) 使用包含SelfEQ损失函数的总损失函数对模型进行微调。

关键创新：最重要的技术创新点在于SelfEQ损失函数的设计。该损失函数通过弱监督的方式，利用释义的视觉解释一致性来约束模型的学习，无需额外的边界框标注。与现有方法相比，SelfEQ能够更有效地利用无标注数据，并提高模型的泛化能力和解释能力。

关键设计：SelfEQ损失函数的具体形式未知，但可以推测其目标是最小化原始文本和释义的视觉解释图之间的差异。可能的实现方式包括计算两个解释图的均方误差或余弦相似度。此外，论文可能还采用了其他技巧来提高释义的质量和模型的训练效果，例如使用数据增强、正则化或知识蒸馏等。

📊 实验亮点

实验结果表明，SelfEQ方法在Flickr30k、ReferIt和RefCOCO+等数据集上取得了显著的性能提升。尤其是在不使用任何边界框标注的情况下，在Flickr30k上获得了84.07%的准确率（绝对提升4.69%），在ReferIt上获得了67.40%的准确率（绝对提升7.68%），在RefCOCO+测试集A和B上分别获得了75.10%和55.49%的准确率（平均绝对提升3.74%）。这些结果表明，SelfEQ能够有效地提高视觉定位模型的性能。

🎯 应用场景

该研究成果可应用于图像搜索、视觉问答、人机交互等领域。例如，在图像搜索中，可以根据用户的自然语言描述，更准确地定位图像中的目标对象。在视觉问答中，可以更好地理解问题并找到图像中对应的答案区域。此外，该方法还可以用于辅助机器人导航，使其能够根据指令在环境中定位目标物体。

📄 摘要（原文）

Vision-and-language models trained to match images with text can be combined with visual explanation methods to point to the locations of specific objects in an image. Our work shows that the localization --"grounding"-- abilities of these models can be further improved by finetuning for self-consistent visual explanations. We propose a strategy for augmenting existing text-image datasets with paraphrases using a large language model, and SelfEQ, a weakly-supervised strategy on visual explanation maps for paraphrases that encourages self-consistency. Specifically, for an input textual phrase, we attempt to generate a paraphrase and finetune the model so that the phrase and paraphrase map to the same region in the image. We posit that this both expands the vocabulary that the model is able to handle, and improves the quality of the object locations highlighted by gradient-based visual explanation methods (e.g. GradCAM). We demonstrate that SelfEQ improves performance on Flickr30k, ReferIt, and RefCOCO+ over a strong baseline method and several prior works. Particularly, comparing to other methods that do not use any type of box annotations, we obtain 84.07% on Flickr30k (an absolute improvement of 4.69%), 67.40% on ReferIt (an absolute improvement of 7.68%), and 75.10%, 55.49% on RefCOCO+ test sets A and B respectively (an absolute improvement of 3.74% on average).

Improved Visual Grounding through Self-Consistent Explanations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册