Learning Visual Grounding from Generative Vision and Language Model

作者: Shijie Wang, Dahun Kim, Ali Taalimi, Chen Sun, Weicheng Kuo

分类: cs.CV

发布日期: 2024-07-18

💡 一句话要点

利用生成式视觉语言模型，大规模生成视觉定位数据，提升定位性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 生成式视觉语言模型 提示工程 数据增强 零样本学习

📋 核心要点

现有的视觉定位数据集依赖于人工标注，成本高昂且难以扩展，限制了模型性能的进一步提升。
利用生成式视觉语言模型，通过提示工程生成大规模的指代表达式，并结合人工标注的对象，构建高质量的视觉定位数据集。
在RefCOCO基准测试中，零样本迁移实验表明，使用该数据集训练的模型显著优于现有方法，验证了数据的有效性。

📝 摘要（中文）

本文探索了如何利用主要在图像-文本数据上训练的生成式视觉语言模型（VLM）来扩展视觉定位数据的文本标注。研究发现，生成式VLM已经具备定位知识，并且可以通过适当的提示来激发。因此，通过输入来自现有目标检测数据集的目标区域，提示VLM生成对象级别的描述。此外，还提出了属性建模来显式地捕获重要的对象属性，以及空间关系建模来捕获对象间的关系，这两种建模方式都是指代表达式中常见的语言模式。构建的数据集（50万张图像，100万个对象，1600万个指代表达式）是迄今为止最大的定位数据集之一，也是第一个完全由模型生成的查询和人工标注对象组成的定位数据集。为了验证数据的质量，对流行的RefCOCO基准进行了指代表达式理解（REC）和分割（RES）任务的零样本迁移实验。在这两项任务中，模型显著优于最先进的方法，且未使用人工标注的视觉定位数据。结果表明，生成式VLM在现实世界中扩展视觉定位具有很大的潜力。

🔬 方法详解

问题定义：视觉定位任务旨在根据自然语言描述定位图像中的特定区域。现有方法依赖大量人工标注数据，成本高昂，限制了模型泛化能力和在实际场景中的应用。

核心思路：利用预训练的生成式视觉语言模型（VLM）的强大生成能力，通过巧妙的提示工程，使其能够根据给定的图像区域生成相应的文本描述（指代表达式）。这样可以低成本地生成大规模的训练数据，从而提升视觉定位模型的性能。

技术框架：整体框架包含以下几个主要步骤：1) 从现有的目标检测数据集中提取目标区域；2) 使用提示工程，将目标区域输入到生成式VLM中，生成相应的文本描述；3) 引入属性建模模块，显式地建模对象的属性特征；4) 引入空间关系建模模块，建模对象之间的空间关系；5) 将生成的文本描述与人工标注的对象区域配对，构建最终的视觉定位数据集。

关键创新：该方法的核心创新在于利用生成式VLM自动生成指代表达式，从而避免了大量的人工标注工作。此外，属性建模和空间关系建模模块的引入，使得生成的指代表达式更加丰富和自然，更贴近人类的语言习惯。与现有方法相比，该方法能够以更低的成本生成更大规模、更高质量的视觉定位数据。

关键设计：在提示工程方面，设计了合适的提示语，引导VLM生成包含对象属性和空间关系的描述。属性建模模块使用Transformer结构，学习对象属性的表示。空间关系建模模块则通过计算对象之间的相对位置关系，来捕捉对象之间的空间依赖性。损失函数采用交叉熵损失，优化模型生成的文本描述与真实描述之间的相似度。

🖼️ 关键图片

📊 实验亮点

该研究构建了一个包含50万张图像、100万个对象和1600万个指代表达式的大规模视觉定位数据集。在RefCOCO基准测试中，使用该数据集训练的模型在指代表达式理解（REC）和分割（RES）任务上，零样本迁移性能显著优于现有最先进的方法，验证了生成数据的有效性，无需人工标注的视觉定位数据。

🎯 应用场景

该研究成果可广泛应用于机器人导航、智能监控、图像检索、视觉辅助等领域。例如，在机器人导航中，机器人可以根据用户的语音指令，定位并抓取指定的物体。在智能监控中，可以根据文本描述，快速定位监控视频中的目标对象。该方法降低了视觉定位数据的获取成本，有望推动视觉定位技术在实际场景中的广泛应用。

📄 摘要（原文）

Visual grounding tasks aim to localize image regions based on natural language references. In this work, we explore whether generative VLMs predominantly trained on image-text data could be leveraged to scale up the text annotation of visual grounding data. We find that grounding knowledge already exists in generative VLM and can be elicited by proper prompting. We thus prompt a VLM to generate object-level descriptions by feeding it object regions from existing object detection datasets. We further propose attribute modeling to explicitly capture the important object attributes, and spatial relation modeling to capture inter-object relationship, both of which are common linguistic pattern in referring expression. Our constructed dataset (500K images, 1M objects, 16M referring expressions) is one of the largest grounding datasets to date, and the first grounding dataset with purely model-generated queries and human-annotated objects. To verify the quality of this data, we conduct zero-shot transfer experiments to the popular RefCOCO benchmarks for both referring expression comprehension (REC) and segmentation (RES) tasks. On both tasks, our model significantly outperform the state-of-the-art approaches without using human annotated visual grounding data. Our results demonstrate the promise of generative VLM to scale up visual grounding in the real world. Code and models will be released.

Learning Visual Grounding from Generative Vision and Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理