Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

📄 arXiv: 2505.13788v1 📥 PDF

作者: Yongshuo Zong, Qin Zhang, Dongsheng An, Zhihua Li, Xiang Xu, Linghan Xu, Zhuowen Tu, Yifan Xing, Onkar Dabeer

分类: cs.CV

发布日期: 2025-05-20

备注: Accepted to CVPR'25


💡 一句话要点

Ground-V:通过像素级指令微调,提升VLM在复杂场景下的定位能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 像素级定位 知识蒸馏 指令跟随 数据增强

📋 核心要点

  1. 现有VLM在复杂指令下,难以进行精确的像素级定位,尤其是在多对象、推理和部分引用等场景。
  2. 利用知识蒸馏,从预训练的教师模型生成高质量的指令-响应对,并与像素级标注关联,减少人工标注需求。
  3. Ground-V数据集训练的模型在LISA和PSALM等基准测试中显著提升,并在gRefCOCO上取得了新的SOTA。

📝 摘要(中文)

本研究提出了一种简单而有效的流程,用于自动扩展指令跟随数据,以激发视觉语言模型(VLM)在复杂指令下进行像素级定位的能力。特别地,我们解决了基于文本指令的定位中五个关键的现实世界挑战:幻觉引用、多对象场景、推理、多粒度和部分级引用。通过利用预训练教师模型的知识蒸馏,我们的方法生成高质量的指令-响应对,并将其链接到现有的像素级标注,从而最大限度地减少了对昂贵的人工标注的需求。由此产生的数据集Ground-V,捕捉了丰富的对象定位知识和细致的像素级指代表达式。实验结果表明,在Ground-V上训练的模型在各种定位任务中表现出显著的改进。具体而言,在训练过程中加入Ground-V,直接使LISA的平均准确率提高了4.4%,PSALM在六个基准测试中的gIoU指标上提高了7.9%。它还在RefCOCO/+/g等标准基准测试中创造了新的state-of-the-art结果。值得注意的是,在gRefCOCO上,我们实现了83.3%的N-Acc,超过了之前的state-of-the-art超过20%。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在复杂指令下进行像素级定位的难题。现有方法在处理幻觉引用、多对象场景、推理、多粒度和部分级引用时存在不足,导致定位精度不高,泛化能力有限。人工标注成本高昂,难以扩展到大规模数据集。

核心思路:论文的核心思路是利用知识蒸馏,从一个预训练的教师模型中提取知识,自动生成高质量的指令-响应对,并将其与现有的像素级标注进行关联。通过这种方式,可以有效地扩展训练数据,提高VLM在复杂场景下的定位能力,同时减少对人工标注的依赖。

技术框架:整体框架包含以下几个主要步骤:1) 选择一个预训练的VLM作为教师模型。2) 利用教师模型生成指令-响应对,其中指令包含复杂的场景描述和定位要求,响应是对应的像素级标注。3) 将生成的指令-响应对与现有的像素级标注进行对齐和筛选,构建Ground-V数据集。4) 使用Ground-V数据集对学生模型进行微调,提升其像素级定位能力。

关键创新:论文的关键创新在于提出了一种基于知识蒸馏的自动数据生成方法,能够有效地扩展训练数据,并解决VLM在复杂指令下的像素级定位问题。该方法无需大量人工标注,降低了数据获取成本,并能够生成包含丰富对象定位知识和细致像素级指代表达式的数据集。

关键设计:论文中,教师模型的选择至关重要,需要选择具有较强视觉理解和语言生成能力的VLM。在生成指令-响应对时,需要设计合适的prompt,以引导教师模型生成多样化和高质量的指令。此外,还需要设计有效的损失函数,以指导学生模型学习教师模型的知识,并提升其像素级定位能力。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Ground-V数据集上训练的模型在LISA和PSALM等基准测试中取得了显著的提升。具体而言,LISA的平均准确率提高了4.4%,PSALM在六个基准测试中的gIoU指标上提高了7.9%。在gRefCOCO上,实现了83.3%的N-Acc,超过了之前的state-of-the-art超过20%,证明了Ground-V数据集的有效性和模型的优越性。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、图像编辑、视频监控等领域。通过提升VLM在复杂指令下的像素级定位能力,可以实现更智能的人机交互,提高自动化系统的精度和可靠性,并为未来的视觉语言理解研究奠定基础。

📄 摘要(原文)

This work presents a simple yet effective workflow for automatically scaling instruction-following data to elicit pixel-level grounding capabilities of VLMs under complex instructions. In particular, we address five critical real-world challenges in text-instruction-based grounding: hallucinated references, multi-object scenarios, reasoning, multi-granularity, and part-level references. By leveraging knowledge distillation from a pre-trained teacher model, our approach generates high-quality instruction-response pairs linked to existing pixel-level annotations, minimizing the need for costly human annotation. The resulting dataset, Ground-V, captures rich object localization knowledge and nuanced pixel-level referring expressions. Experiment results show that models trained on Ground-V exhibit substantial improvements across diverse grounding tasks. Specifically, incorporating Ground-V during training directly achieves an average accuracy boost of 4.4% for LISA and a 7.9% for PSALM across six benchmarks on the gIoU metric. It also sets new state-of-the-art results on standard benchmarks such as RefCOCO/+/g. Notably, on gRefCOCO, we achieve an N-Acc of 83.3%, exceeding the previous state-of-the-art by more than 20%.