Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding

作者: Yan Zhang, Daiqing Wu, Huawen Shen, Yu Zhou, Can Ma

分类: cs.AI, cs.CV

发布日期: 2026-05-01

备注: under review

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出GUI-SD，用于GUI元素定位的On-Policy自蒸馏框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: GUI元素定位 On-policy自蒸馏 强化学习 视觉增强上下文 熵引导蒸馏

📋 核心要点

现有GUI元素定位强化学习方法依赖多重rollout，面临样本稀疏和训练效率低下的挑战。
GUI-SD通过构建视觉增强的特权上下文和熵引导蒸馏，实现高效的On-policy自蒸馏。
实验表明，GUI-SD在多个GUI定位基准测试中，显著优于现有方法，提升了准确性和训练效率。

📝 摘要（中文）

图形用户界面(GUI)元素定位旨在将自然语言指令映射到目标元素的可视坐标，是自主GUI代理的核心能力。最近的强化学习方法(如GRPO)表现出色，但依赖于昂贵的多重rollout，并且在困难样本上存在稀疏信号问题。On-policy自蒸馏(OPSD)从单个rollout提供密集的token级别监督，是一种有前景的替代方案，但其在GUI元素定位中的应用尚未被探索。本文提出了GUI-SD，这是第一个为GUI元素定位量身定制的OPSD框架。首先，它使用目标边界框和高斯软掩码为教师构建视觉丰富的特权上下文，提供信息丰富的指导，而不会泄露确切的坐标。其次，它采用熵引导蒸馏，根据数字重要性和教师置信度自适应地加权token，将优化集中在最具影响力和最可靠的位置。在六个代表性的GUI元素定位基准上的大量实验表明，GUI-SD在准确性和训练效率方面始终优于基于GRPO的方法和朴素的OPSD。

🔬 方法详解

问题定义：GUI元素定位旨在根据自然语言指令，在GUI界面中找到对应的元素坐标。现有强化学习方法，如GRPO，需要多次rollout来探索环境，计算成本高昂，且在复杂场景下，奖励信号稀疏，导致训练困难。

核心思路：利用On-policy自蒸馏(OPSD)框架，从单个rollout中提取信息，通过教师模型指导学生模型学习。教师模型拥有更丰富的上下文信息，学生模型则学习模仿教师模型的行为，从而提高学习效率和性能。核心在于如何构建有效的教师模型和设计合适的蒸馏策略。

技术框架：GUI-SD框架包含教师模型和学生模型。教师模型接收包含目标元素边界框和高斯软掩码的视觉增强上下文，从而获得更准确的目标信息。学生模型则接收原始的GUI界面和自然语言指令。通过蒸馏损失，学生模型学习模仿教师模型的行为。整体流程是：输入GUI界面和指令 -> 教师模型生成目标概率分布 -> 学生模型生成目标概率分布 -> 计算蒸馏损失 -> 更新学生模型参数。

关键创新：GUI-SD的关键创新在于：1) 视觉增强的特权上下文：通过目标边界框和高斯软掩码，为教师模型提供更丰富、更准确的目标信息，避免泄露精确坐标。2) 熵引导蒸馏：根据token的重要性（数字的显著性）和教师模型的置信度，自适应地调整蒸馏损失的权重，使学生模型更关注重要的token和教师模型更自信的预测。

关键设计：1) 教师模型的输入包含原始GUI界面、自然语言指令、目标元素的边界框和高斯软掩码。2) 蒸馏损失采用交叉熵损失，并使用熵引导权重进行加权。3) 高斯软掩码的方差是一个可调节的超参数，用于控制信息的泄露程度。4) 网络结构基于Transformer，用于处理序列数据。

🖼️ 关键图片

📊 实验亮点

GUI-SD在六个GUI元素定位基准测试中，均优于基于GRPO的方法和朴素的OPSD。例如，在某些数据集上，GUI-SD的准确率比GRPO提高了5%以上，并且训练效率也得到了显著提升。熵引导蒸馏策略有效地提高了模型的性能，验证了其有效性。

🎯 应用场景

GUI-SD可应用于自动化测试、RPA（机器人流程自动化）、辅助功能设计等领域。通过提升GUI元素定位的准确性和效率，可以实现更智能、更可靠的自动化任务，降低人工成本，并为残障人士提供更好的用户体验。未来，该技术有望应用于更复杂的交互式系统中。

📄 摘要（原文）

Graphical User Interface (GUI) grounding maps natural language instructions to the visual coordinates of target elements and serves as a core capability for autonomous GUI agents. Recent reinforcement learning methods (e.g., GRPO) have achieved strong performance, but they rely on expensive multiple rollouts and suffer from sparse signals on hard samples. These limitations make on-policy self-distillation (OPSD), which provides dense token-level supervision from a single rollout, a promising alternative. However, its applicability to GUI grounding remains unexplored. In this paper, we present GUI-SD, the first OPSD framework tailored for GUI grounding. First, it constructs a visually enriched privileged context for the teacher using a target bounding box and a Gaussian soft mask, providing informative guidance without leaking exact coordinates. Second, it employs entropy-guided distillation, which adaptively weights tokens based on digit significance and teacher confidence, concentrating optimization on the most impactful and reliable positions. Extensive experiments on six representative GUI grounding benchmarks show that GUI-SD consistently outperforms GRPO-based methods and naive OPSD in both accuracy and training efficiency. Code and training data are available at https://zhangyan-ucas.github.io/GUI-SD/.

Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理