Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

作者: Yongshuo Zong, Qin Zhang, Dongsheng An, Zhihua Li, Xiang Xu, Linghan Xu, Zhuowen Tu, Yifan Xing, Onkar Dabeer

分类: cs.CV

发布日期: 2025-05-20

备注: Accepted to CVPR'25

💡 一句话要点

提出Ground-V以解决复杂指令的像素级定位问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 知识蒸馏 像素级定位 复杂指令 多对象场景 数据集生成 自动化标注

📋 核心要点

现有方法在处理复杂指令时面临虚假引用、多对象场景和推理等多重挑战，导致定位精度不足。
本研究通过知识蒸馏生成高质量的指令-响应对，结合现有像素级注释，减少人工标注需求。
实验结果显示，基于Ground-V训练的模型在多个基准测试上取得了显著的性能提升，尤其在gRefCOCO上达到83.3%的N-Acc。

📝 摘要（中文）

本研究提出了一种简单而有效的工作流程，旨在自动扩展指令跟随数据，以引导视觉语言模型（VLMs）在复杂指令下实现像素级的定位能力。我们特别解决了文本指令基础定位中的五个关键现实挑战：虚假引用、多对象场景、推理、多粒度和部分引用。通过利用预训练教师模型的知识蒸馏，我们的方法生成了与现有像素级注释相关的高质量指令-响应对，最大限度地减少了对昂贵人工注释的需求。生成的数据集Ground-V捕捉了丰富的对象定位知识和细致的像素级引用表达。实验结果表明，基于Ground-V训练的模型在多种定位任务上表现出显著提升，具体而言，在LISA和PSALM的训练中，平均准确率分别提高了4.4%和7.9%。

🔬 方法详解

问题定义：本论文旨在解决视觉语言模型在复杂指令下的像素级定位问题。现有方法在处理多对象场景和推理时，常常出现虚假引用和定位不准确的情况。

核心思路：我们提出通过知识蒸馏从预训练教师模型中提取信息，生成高质量的指令-响应对，以此来增强模型的像素级定位能力，减少对人工注释的依赖。

技术框架：整体架构包括数据生成、知识蒸馏和模型训练三个主要阶段。首先，通过教师模型生成指令-响应对，然后利用这些数据进行模型训练，以提高其在复杂场景下的表现。

关键创新：本研究的主要创新在于通过知识蒸馏生成高质量的指令-响应对，显著提升了模型在复杂指令下的像素级定位能力。这一方法与传统的人工标注方式相比，效率更高且成本更低。

关键设计：在模型训练中，我们采用了特定的损失函数来优化指令与响应之间的匹配度，并设计了适合多粒度引用的网络结构，以提高模型的泛化能力。

📊 实验亮点

实验结果显示，使用Ground-V训练的模型在LISA和PSALM任务上分别提高了4.4%和7.9%的准确率，并在标准基准测试如RefCOCO/+/g上设立了新的最先进结果。在gRefCOCO上，模型的N-Acc达到了83.3%，超越了之前的最先进水平超过20%。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动驾驶、机器人导航等，能够帮助系统更好地理解和执行复杂的视觉指令。通过提高模型的像素级定位能力，未来可以在多种实际场景中实现更高效的交互和操作。

📄 摘要（原文）

This work presents a simple yet effective workflow for automatically scaling instruction-following data to elicit pixel-level grounding capabilities of VLMs under complex instructions. In particular, we address five critical real-world challenges in text-instruction-based grounding: hallucinated references, multi-object scenarios, reasoning, multi-granularity, and part-level references. By leveraging knowledge distillation from a pre-trained teacher model, our approach generates high-quality instruction-response pairs linked to existing pixel-level annotations, minimizing the need for costly human annotation. The resulting dataset, Ground-V, captures rich object localization knowledge and nuanced pixel-level referring expressions. Experiment results show that models trained on Ground-V exhibit substantial improvements across diverse grounding tasks. Specifically, incorporating Ground-V during training directly achieves an average accuracy boost of 4.4% for LISA and a 7.9% for PSALM across six benchmarks on the gIoU metric. It also sets new state-of-the-art results on standard benchmarks such as RefCOCO/+/g. Notably, on gRefCOCO, we achieve an N-Acc of 83.3%, exceeding the previous state-of-the-art by more than 20%.

Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册