ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search
作者: Hyunseok Lee, Jeonghoon Kim, Beomjun Kim, Jihoon Tack, Chansong Jo, Jaehong Lee, Cheonbok Park, Sookyo In, Jinwoo Shin, Kang Min Yoo
分类: cs.LG, cs.CL
发布日期: 2025-05-21 (更新: 2025-05-24)
💡 一句话要点
ReGUIDE:通过空间推理和搜索实现数据高效的GUI元素定位
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI元素定位 多模态学习 强化学习 空间推理 数据高效 人机交互 Web自动化
📋 核心要点
- 现有方法依赖大规模Web数据集提升GUI元素定位精度,但数据需求量大,成本高昂。
- ReGUIDE通过自生成推理过程和空间感知批判,使MLLM能够以更少的数据进行高效学习。
- 实验表明,ReGUIDE在多个基准测试中显著提升了Web定位性能,且训练数据需求远低于现有方法。
📝 摘要(中文)
多模态大型语言模型(MLLM)的最新进展使得自主智能体能够通过图形用户界面(GUI)与计算机交互,其中精确定位界面元素(如按钮)的坐标对于细粒度动作至关重要。然而,这仍然极具挑战性,导致先前的工作依赖于大规模Web数据集来提高定位精度。本文提出了Reasoning Graphical User Interface Grounding for Data Efficiency (ReGUIDE),这是一个新颖有效的Web定位框架,它使MLLM能够通过自我生成的推理和空间感知批判来高效地学习数据。更具体地说,ReGUIDE学习(i)通过在线强化学习自我生成用于定位的语言推理过程,以及(ii)使用空间先验来批判预测,从而强制执行输入转换下的等变性。在推理时,ReGUIDE通过测试时缩放策略进一步提高性能,该策略将空间搜索与坐标聚合相结合。实验表明,ReGUIDE显著提高了多个基准测试中的Web定位性能,优于基线,且使用的训练数据点大大减少(例如,与最佳开源基线相比,仅使用0.2%的样本)。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型在与计算机GUI交互时,精确地定位界面元素(如按钮)坐标的问题。现有方法通常依赖于大规模的Web数据集进行训练,这导致了数据收集和标注成本高昂,并且可能存在数据偏差问题。因此,如何在数据量有限的情况下,提高GUI元素定位的准确性是一个关键挑战。
核心思路:ReGUIDE的核心思路是通过引入自我生成的推理过程和空间感知批判机制,使模型能够更有效地利用有限的数据进行学习。自我生成的推理过程允许模型逐步推导定位过程,而空间感知批判则利用空间先验知识来评估预测结果的合理性,从而提高定位的准确性和鲁棒性。
技术框架:ReGUIDE框架主要包含两个阶段:训练阶段和推理阶段。在训练阶段,模型通过在线强化学习来学习自我生成语言推理过程,并利用空间先验知识进行批判学习。具体来说,模型首先接收GUI图像和用户指令,然后生成一系列的语言推理步骤,最终预测目标元素的坐标。空间感知批判模块则根据空间先验知识(例如,元素之间的相对位置关系)来评估预测结果的合理性,并提供反馈信号。在推理阶段,ReGUIDE采用测试时缩放策略,结合空间搜索和坐标聚合来进一步提高性能。
关键创新:ReGUIDE的关键创新在于引入了自我生成的推理过程和空间感知批判机制。与现有方法相比,ReGUIDE不需要依赖大规模的标注数据,而是通过自我学习和批判来提高定位的准确性。此外,ReGUIDE的空间感知批判机制能够有效地利用空间先验知识,从而提高模型的鲁棒性和泛化能力。
关键设计:ReGUIDE使用强化学习来训练语言推理过程,奖励函数的设计至关重要,需要平衡定位的准确性和推理过程的效率。空间感知批判模块利用空间等变性原理,设计损失函数来约束模型的预测结果。测试时缩放策略通过调整搜索范围和聚合方式来优化定位性能。具体的网络结构和参数设置在论文中有详细描述,但未在摘要中体现。
🖼️ 关键图片
📊 实验亮点
ReGUIDE在多个Web定位基准测试中取得了显著的性能提升,尤其是在数据量有限的情况下。例如,与最佳开源基线相比,ReGUIDE仅使用0.2%的训练样本就取得了更优的性能。实验结果表明,ReGUIDE能够有效地利用有限的数据进行学习,并且具有良好的泛化能力。
🎯 应用场景
ReGUIDE技术可应用于自动化测试、机器人流程自动化(RPA)、辅助技术等领域。通过更精确的GUI元素定位,可以提升自动化脚本的稳定性和效率,帮助残障人士更便捷地使用计算机,并为各种需要与GUI交互的智能体提供更可靠的基础能力。该研究有望推动人机交互技术的进步。
📄 摘要(原文)
Recent advances in Multimodal Large Language Models (MLLMs) have enabled autonomous agents to interact with computers via Graphical User Interfaces (GUIs), where accurately localizing the coordinates of interface elements (e.g., buttons) is often required for fine-grained actions. However, this remains significantly challenging, leading prior works to rely on large-scale web datasets to improve the grounding accuracy. In this work, we propose Reasoning Graphical User Interface Grounding for Data Efficiency (ReGUIDE), a novel and effective framework for web grounding that enables MLLMs to learn data efficiently through self-generated reasoning and spatial-aware criticism. More specifically, ReGUIDE learns to (i) self-generate a language reasoning process for the localization via online reinforcement learning, and (ii) criticize the prediction using spatial priors that enforce equivariance under input transformations. At inference time, ReGUIDE further boosts performance through a test-time scaling strategy, which combines spatial search with coordinate aggregation. Our experiments demonstrate that ReGUIDE significantly advances web grounding performance across multiple benchmarks, outperforming baselines with substantially fewer training data points (e.g., only 0.2% samples compared to the best open-sourced baselines).