From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding

📄 arXiv: 2605.15951v1 📥 PDF

作者: Yuyuan Liu, Yiping Ji, Anjie Le, Jiayuan Zhu, Jiazhen Pan, Can Peng, Jiajun Deng, Fengbei Liu, Junde Wu

分类: cs.CV

发布日期: 2026-05-15

备注: 8 pages, 5 figures, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出Group-Revision优化范式,解决目标级Grounding中困难样本的稀疏奖励问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 目标级Grounding 视觉-语言模型 强化学习 奖励塑造 Group-Revision

📋 核心要点

  1. 现有基于GRPO的方法在目标级Grounding中,奖励稀疏,难以有效处理困难样本。
  2. 提出Group-Revision优化范式,通过生成和评估一组修正候选,提供更密集的学习信号。
  3. 实验表明,该方法在指代分割、推理分割、REC和计数任务上均优于现有GRPO方法。

📝 摘要(中文)

本文提出了一种Group-Revision优化范式,旨在提升大型视觉-语言模型在目标级Grounding方面的能力。现有方法主要基于GRPO,在响应层面分配奖励,这种稀疏奖励在所有候选响应均失败的挑战性场景中,导致学习信号极小。本文方法首先采样一个初始响应,然后生成一组修正后的候选响应,以探索改进的Grounding结果。借鉴奖励塑造的思想,引入了一个整合过程,量化每个候选响应相对于初始尝试的改进,并将其转化为信息丰富的塑造信号。这些信号用于优化奖励和调整优势函数,从而放大高质量修正的影响。在指代和推理分割、REC和计数基准测试中,本文方法相对于之前的基于GRPO的模型取得了持续的提升。代码已开源。

🔬 方法详解

问题定义:现有基于GRPO的视觉-语言模型在进行目标级Grounding时,通常只在最终的响应层面给予奖励。当模型遇到困难样本,所有候选响应都失败时,这种稀疏的奖励机制会导致模型无法获得有效的学习信号,难以提升性能。因此,该论文旨在解决困难样本下,奖励信号不足的问题。

核心思路:该论文的核心思路是引入“Group-Revision”的概念,即对初始响应进行多次修正,生成一组候选响应。通过比较这些候选响应与初始响应的差异,并结合奖励塑造的思想,为每个候选响应生成更密集的、信息量更丰富的奖励信号。这样即使初始响应失败,模型也能从修正后的候选响应中学习到有用的信息。

技术框架:整体框架包含以下几个主要阶段:1) 初始响应生成:首先,模型根据输入生成一个初始的响应。2) 候选响应修正:对初始响应进行多次修正,生成一组候选响应。修正过程可以通过不同的策略实现,例如随机扰动、基于梯度的优化等。3) 奖励塑造与整合:对每个候选响应进行评估,计算其相对于初始响应的改进程度,并将其转化为奖励信号。这个过程借鉴了奖励塑造的思想,旨在提供更密集的奖励信号。4) 奖励和优势函数调整:使用生成的奖励信号来优化原始的奖励函数,并调整优势函数,从而放大高质量修正的影响。

关键创新:该论文的关键创新在于提出了Group-Revision优化范式,将传统的单响应奖励机制扩展到多响应奖励机制。通过生成一组修正后的候选响应,并利用奖励塑造的思想,为每个候选响应生成更密集的奖励信号,从而解决了困难样本下奖励稀疏的问题。与现有方法相比,该方法能够更有效地利用困难样本进行学习,提升模型的Grounding能力。

关键设计:论文的关键设计包括:1) 修正策略:如何有效地生成修正后的候选响应?可以采用随机扰动、基于梯度的优化等策略。2) 奖励塑造函数:如何设计奖励塑造函数,才能准确地评估候选响应的改进程度?需要考虑多种因素,例如响应的准确性、一致性等。3) 奖励和优势函数调整策略:如何利用生成的奖励信号来优化原始的奖励函数,并调整优势函数?需要考虑如何平衡原始奖励和塑造奖励之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在指代分割、推理分割、REC和计数等多个基准测试中,均优于现有的基于GRPO的模型。具体而言,在某些任务上,该方法能够取得显著的性能提升,表明其在处理困难样本方面具有明显的优势。

🎯 应用场景

该研究成果可应用于各种需要精确目标定位的视觉-语言任务,例如智能客服、自动驾驶、机器人导航等。通过提升模型在困难场景下的Grounding能力,可以提高系统的可靠性和鲁棒性,从而实现更智能、更高效的人机交互。

📄 摘要(原文)

Finetuning Large Vision-Language Models with reinforcement learning has emerged as a promising approach to enhance their capability in object-level grounding. However, existing methods, mainly based on GRPO, assign rewards at the response level. Such sparse reward, often criterion-induced, leads to minimal learning signals when all candidate responses fail in challenging scenarios. In this work, we propose a group-revision optimisation paradigm that enhances learning on hard cases. It begins with a sampled initial response and generates a set of revised candidates to explore improved grounding outcomes. Inspired by reward shaping, we introduce a consolidation process that quantifies each candidate's improvement over the initial attempt and converts it into informative shaping signals. These signals are used to both refine the reward and modulate the advantage, amplifying the influence of high-quality revisions. Our method achieves consistent gains across referring and reasoning segmentation, REC, and counting benchmarks compared with prior GRPO-based models. Our code is available at https://github.com/yyliu01/GroupRevision.