PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control
作者: Jingxuan Wei, Xi Bai, Shan Liu, Caijun Jia, Zheng Sun, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Cheng Tan
分类: cs.AI
发布日期: 2026-05-15
备注: 27 pages, 11 figures, 3 tables
💡 一句话要点
PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI控制 几何构造 点精确 视觉-语言模型 强化学习 拓扑感知 依赖结构化规划
📋 核心要点
- 现有GUI代理在容错区域表现良好,但在点精确几何构造任务中面临精度挑战。
- PAGER通过依赖结构化规划和像素级执行,实现拓扑感知和几何验证。
- PAGE Bench基准测试和实验结果表明,PAGER显著提升了点精确GUI控制的任务成功率。
📝 摘要(中文)
大型视觉-语言模型显著提升了GUI代理的能力,实现了跨Web、移动和桌面界面的可执行交互。然而,这些成果主要依赖于容错区域范式,即同一组件内的许多邻近像素仍然有效。精确几何构造打破了这一假设:动作必须落在连续画布空间中的点上,而非容错区域。由于几何基元具有本体依赖性,局部坐标误差可能导致级联拓扑失效,从而扭曲下游对象并使最终构造无效。我们将此机制定义为精度敏感的GUI任务,需要点级精度、几何感知验证以及对依赖驱动的误差传播的鲁棒性。为了评估它,我们引入了PAGE Bench,包含4,906个问题和超过224K个过程监督的像素级GUI动作。我们进一步提出了PAGER,一种拓扑感知代理,将构造分解为依赖结构化的规划和像素级执行。像素级监督微调建立了可执行的动作语法,而精度对齐的强化学习通过状态条件几何反馈缓解了rollout引入的暴露偏差。实验表明存在明显的语义-执行鸿沟:通用多模态模型可以超过88%的动作类型准确率,但任务成功率仍低于6%。PAGER弥合了这一差距,提供了比最强的通用基线高4.1倍的任务成功率,并将GUI专用代理的步成功率从低于9%提高到超过62%,从而为点精确GUI控制建立了新的技术水平。
🔬 方法详解
问题定义:现有GUI代理在处理需要点精确控制的几何构造任务时,由于其容错区域的特性,容易产生误差累积和拓扑失效,导致最终构造失败。现有方法缺乏对几何依赖关系的建模和对误差传播的鲁棒性。
核心思路:PAGER的核心思路是将几何构造任务分解为依赖结构化的规划和像素级执行两个阶段。通过规划阶段明确动作之间的依赖关系,并在执行阶段进行像素级精确控制,从而避免误差累积和拓扑失效。同时,引入几何反馈机制,利用强化学习来优化策略,提高对误差的鲁棒性。
技术框架:PAGER包含以下主要模块:1) 依赖结构化规划器:用于将几何构造任务分解为具有依赖关系的动作序列。2) 像素级执行器:用于执行每个动作,实现像素级精确控制。3) 几何验证器:用于验证每个动作的执行结果是否满足几何约束。4) 强化学习模块:用于优化策略,提高对误差的鲁棒性。整体流程是,首先由规划器生成动作序列,然后由执行器执行每个动作,几何验证器对执行结果进行验证,强化学习模块根据验证结果调整策略。
关键创新:PAGER的关键创新在于:1) 提出了依赖结构化规划,显式地建模了动作之间的依赖关系。2) 引入了像素级执行,实现了点精确控制。3) 提出了几何反馈机制,利用强化学习来优化策略,提高对误差的鲁棒性。与现有方法相比,PAGER能够更好地处理需要点精确控制的几何构造任务。
关键设计:PAGER的关键设计包括:1) 使用图神经网络来建模动作之间的依赖关系。2) 使用卷积神经网络来处理像素级图像输入。3) 使用强化学习中的策略梯度算法来优化策略。4) 设计了基于几何约束的奖励函数,用于指导强化学习过程。具体参数设置和网络结构细节未在论文中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PAGER在PAGE Bench基准测试中取得了显著的性能提升。PAGER的任务成功率比最强的通用基线高4.1倍,步成功率从GUI专用代理的低于9%提高到超过62%。这些结果表明,PAGER能够有效地弥合语义-执行鸿沟,实现点精确GUI控制。
🎯 应用场景
PAGER的研究成果可应用于各种需要精确几何控制的场景,例如CAD/CAM软件、图形设计工具、机器人操作等。该研究有助于提高人机交互的效率和精度,并为自动化几何构造提供新的解决方案。未来,PAGER可以扩展到更复杂的几何构造任务,并与其他AI技术相结合,实现更智能化的GUI控制。
📄 摘要(原文)
Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. Precise geometric construction breaks this assumption: actions must land on points in continuous canvas space rather than tolerant regions. Because geometric primitives carry ontological dependencies, a local coordinate error can induce cascading topological failures that distort downstream objects and invalidate the final construction. We identify this regime as precision-sensitive GUI tasks, requiring point-level accuracy, geometry-aware verification, and robustness to dependency-driven error propagation. To benchmark it, we introduce PAGE Bench, with 4,906 problems and over 224K process-supervised, pixel-level GUI actions. We further propose PAGER, a topology-aware agent that decomposes construction into dependency-structured planning and pixel-level execution. Pixel-grounded supervised tuning establishes executable action grammar, while precision-aligned reinforcement learning mitigates rollout-induced exposure bias through state-conditioned geometric feedback. Experiments reveal a pronounced Semantic-Execution Gap: general multimodal models can exceed 88% action type accuracy yet remain below 6% task success. PAGER closes this gap, delivering 4.1x higher task success than the strongest evaluated general baseline and raising step success rate from below 9% for GUI-specialized agents to over 62%, establishing a new state of the art for point-precise GUI control.