GUI-C$^2$: Coarse-to-Fine GUI Grounding via Difficulty-Aware Reinforcement Learning
作者: Junlong Li, Chao Hao, Lap-Pui Chau, Yi Wang
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
提出GUI-C$^2$,通过难度感知强化学习实现GUI元素精准定位
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: GUI元素定位 强化学习 难度感知 由粗到精 数据挖掘 自动化测试 UI自动化
📋 核心要点
- 现有GUI元素定位方法忽略了训练样本的难度差异,导致训练效率低下甚至模型崩溃。
- GUI-C$^2$采用由粗到精的细化机制,根据模型内部不确定性自适应调整视觉范围,平衡上下文和精度。
- 实验表明,GUI-C$^2$在GUI元素定位任务上取得了最先进的性能,并显著减少了推理时间。
📝 摘要(中文)
现有的GUI元素定位强化学习方法存在两个层面的局限性。在数据层面,现有方法通常平等对待所有训练样本,忽略了样本难度对模型训练价值的影响,这会降低训练效率甚至导致模型崩溃。在策略层面,现有框架难以平衡裁剪较大区域以获取足够上下文信息和裁剪较小区域以减少冗余信息之间的权衡。此外,过于复杂的决策过程对于小参数模型来说是困难的,并且会显著增加推理时间。为了解决这些问题,在数据层面,我们提出了GUI-D,一个数据挖掘和难度评分流程,通过适当的测试来识别有价值的训练样本,并分配难度分数来指导后续的训练权重。在策略层面,我们提出了GUI-C$^2$,它采用了一种区域门控的由粗到精的细化机制,通过模型内部的不确定性信号逐步缩小视觉范围,自适应地为大型目标保留上下文,同时提高小型目标的精度,并通过改进感知的阶段奖励来强化,确保每次细化都能真正推进定位。同时,我们简化了决策过程,大大减少了额外的推理时间。最后,大量的实验表明我们的方法达到了最先进的性能。代码和数据将公开。
🔬 方法详解
问题定义:论文旨在解决GUI元素定位问题,即在给定的GUI界面中,准确地定位出目标元素的位置。现有方法存在两个主要痛点:一是训练数据利用率低,忽略了样本难度差异;二是定位策略复杂,难以平衡上下文信息和定位精度,导致推理时间增加。
核心思路:论文的核心思路是采用难度感知的强化学习方法,并结合由粗到精的定位策略。通过难度感知,可以更有效地利用训练数据,提高模型训练效率。通过由粗到精的定位策略,可以自适应地调整视觉范围,平衡上下文信息和定位精度,从而提高定位准确率并减少推理时间。
技术框架:GUI-C$^2$的整体框架包含两个主要模块:GUI-D(数据挖掘和难度评分)和GUI-C$^2$(由粗到精的定位)。GUI-D负责对训练数据进行挖掘,识别有价值的样本,并根据样本难度分配权重。GUI-C$^2$则采用区域门控的由粗到精的细化机制,通过模型内部的不确定性信号逐步缩小视觉范围,并使用改进感知的阶段奖励来强化定位过程。
关键创新:论文的关键创新点在于:1) 提出了GUI-D,一种数据挖掘和难度评分流程,可以有效识别有价值的训练样本,并指导后续的训练权重;2) 提出了GUI-C$^2$,一种区域门控的由粗到精的细化机制,可以自适应地调整视觉范围,平衡上下文信息和定位精度。与现有方法相比,GUI-C$^2$能够更有效地利用训练数据,并提高定位准确率和推理速度。
关键设计:GUI-D使用测试集评估每个样本的训练价值,并根据测试结果分配难度分数。GUI-C$^2$使用模型内部的不确定性信号(例如,预测概率的方差)来控制视觉范围的缩小。阶段奖励的设计考虑了定位的改进程度,鼓励模型进行有效的细化。具体网络结构和损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GUI-C$^2$在GUI元素定位任务上取得了state-of-the-art的性能。具体性能数据未知,但论文强调了相比现有方法,GUI-C$^2$在定位准确率和推理速度上均有显著提升。代码和数据将公开,方便其他研究者复现和进一步研究。
🎯 应用场景
该研究成果可应用于自动化测试、UI自动化、辅助功能设计等领域。通过精准定位GUI元素,可以提高自动化测试的效率和准确性,简化UI自动化流程,并为残障人士提供更好的辅助功能体验。未来,该技术有望进一步扩展到移动应用、网页等更广泛的GUI场景。
📄 摘要(原文)
Existing agentic reinforcement learning methods for GUI grounding have limitations at two levels. At the data level, current approaches typically treat all training samples equally, although their training value to the baseline model varies with difficulty. Overlooking this can greatly reduce training efficiency or even cause collapse. At the strategy level, existing frameworks struggle to balance the trade-off between cropping larger regions for sufficient context and smaller ones for reduced redundancy, a tension inherent to tool-augmented grounding agents. In addition, overly complex decision-making is difficult for small-parameter models and significantly increases inference time. To address these issues, at the data level, we propose GUI-D, a data mining and difficulty scoring pipeline that identifies the training-worthy samples by proper testing and assigns difficulty scores to guide subsequent training weights. At the strategy level, we propose GUI-C$^2$, which employs an area-gated coarse-to-fine refinement mechanism that progressively narrows the visual field via model-internal uncertainty signals, adaptively reserving context for large targets while amplifying precision for small ones, reinforced by improvement-aware stage rewards that ensure each refinement genuinely advances grounding. Meanwhile, we simplify the decision-making process to greatly reduce additional inference time. Finally, extensive experiments show that our method achieves state-of-the-art performance. The code and data will be publicly available.