Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding

📄 arXiv: 2604.21268v1 📥 PDF

作者: Wenkai Wang, Xiyun Li, Hongcan Guo, Wenhao Yu, Tianqing Fang, Haitao Mi, Dong Yu, Shengyu Zhang

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-04-23


💡 一句话要点

提出基于强化学习的Propose-then-Critic协同进化框架,用于提升GUI界面元素定位精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: GUI元素定位 强化学习 协同进化 Propose-then-Critic 人机交互

📋 核心要点

  1. 现有GUI元素定位模型难以在视觉同质和密集布局的界面中实现精确定位,静态自洽策略提升有限。
  2. 提出Propose-then-Critic框架,通过强化学习协同进化提议者和评价者,互相促进,提升定位精度。
  3. 实验结果表明,该方法在多个GUI基准测试中显著提高了定位精度和评价者的可靠性。

📝 摘要(中文)

图形用户界面(GUI)元素定位需要将自然语言指令映射到精确的像素坐标。然而,由于视觉元素的同质性和密集的布局,模型通常能理解语义意图,但难以实现精确定位。虽然增加采样次数(Pass@k)显示出潜在的收益,但源于几何聚类的静态自洽策略的改进有限,因为模型的预测往往在空间上分散。本文提出用可学习的选择机制取代静态一致性策略,该机制通过评价自身在屏幕截图上呈现的提议来选择最佳目标。鉴于模型在定位和评价能力上的显著差异,我们提出了一个协同进化的Propose-then-Critic框架。为了共同优化这两个模块,我们引入了一种感知成熟度的自适应协同进化强化学习范式。这种方法动态地平衡了提议者和评价者的训练目标,其中提议者输出的多样性增强了评价者的鲁棒性,而评价者日益成熟的辨别能力反过来释放了提议者进行广泛空间探索的潜力,从而促进了两种能力的相互加强和协同进化,确保了对各种复杂界面布局的泛化能力。在6个基准上的大量实验表明,我们的方法显著提高了定位精度和评价者的可靠性。

🔬 方法详解

问题定义:GUI元素定位任务旨在将自然语言指令映射到GUI界面的特定像素坐标。现有方法,即使增加采样次数,由于视觉元素的相似性和界面布局的密集性,仍然难以实现精确定位。静态自洽策略无法有效利用多次采样结果,因为模型预测结果往往分散在空间中,缺乏有效的选择机制。

核心思路:核心思想是引入一个可学习的评价机制(Critic),用于评估提议者(Proposer)生成的多个候选目标,并选择最优目标。通过让提议者和评价者协同进化,提议者生成更多样化的候选目标,评价者学习更准确的评估标准,从而提高定位精度。

技术框架:整体框架包含两个主要模块:Proposer和Critic。Proposer负责根据自然语言指令和GUI界面截图生成多个候选目标位置。Critic负责评估这些候选目标,并选择最佳目标。这两个模块通过强化学习进行联合训练,其中Proposer的目标是最大化Critic的奖励,Critic的目标是准确评估Proposer的输出。引入了maturity-aware adaptive co-evolutionary reinforcement learning paradigm,动态平衡Proposer和Critic的训练目标。

关键创新:关键创新在于使用可学习的Critic取代了静态自洽策略,并提出了协同进化的训练方法。与现有方法相比,该方法能够更好地利用多次采样结果,并根据GUI界面的特点动态调整提议和评价策略。通过强化学习,Proposer和Critic可以相互促进,共同提高定位精度。

关键设计:使用了强化学习算法来训练Proposer和Critic。具体来说,Proposer使用策略梯度方法进行训练,Critic使用Q-learning方法进行训练。引入了maturity-aware机制,根据Proposer和Critic的训练状态动态调整奖励函数。损失函数的设计旨在鼓励Proposer生成多样化的候选目标,并鼓励Critic准确评估这些目标。具体网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在6个GUI基准测试中显著提高了定位精度和评价者的可靠性。具体性能数据未知,但论文强调了该方法在多个数据集上均优于现有方法,证明了其有效性和泛化能力。该方法尤其在复杂界面布局上表现出色。

🎯 应用场景

该研究成果可应用于自动化测试、人机交互、辅助技术等领域。例如,可以用于自动化测试GUI应用程序,提高测试效率和覆盖率。也可以用于改善人机交互体验,使用户可以通过自然语言指令更方便地操作GUI界面。此外,还可以为残疾人士提供辅助技术,帮助他们更轻松地使用计算机。

📄 摘要(原文)

Graphical User Interface (GUI) grounding requires mapping natural language instructions to precise pixel coordinates. However, due to visually homogeneous elements and dense layouts, models typically grasp semantic intent yet struggle with achieving precise localization. While scaling sampling attempts (Pass@k) reveals potential gains, static self-consistency strategies derived from geometric clustering often yield limited improvements, as the model's predictions tend to be spatially dispersed. In this paper, we propose replacing static consistency strategies with a learnable selection mechanism that selects the optimal target by critiquing its own proposals rendered on the screenshot. Given the significant disparity between the model's grounding and critiquing capabilities, we propose a co-evolving Propose-then-Critic framework. To jointly optimize these, we introduce a maturity-aware adaptive co-evolutionary reinforcement learning paradigm. This approach dynamically balances the training objectives of proposer and critic, where the diversity of the proposer's outputs enhances critic robustness, while the critic's maturing discrimination capability conversely unlocks the proposer's potential for extensive spatial exploration, fostering the mutual reinforcement and co-evolution of both capabilities, thereby ensuring generalizability to adapt to diverse and complex interface layouts. Extensive experiments over 6 benchmarks show that our method significantly enhances both grounding accuracy and critic reliability.