ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

📄 arXiv: 2512.24965v1 📥 PDF

作者: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

分类: cs.CV, cs.AI, cs.HC

发布日期: 2025-12-31

备注: 17 pages, 15 figures

🔗 代码/项目: GITHUB


💡 一句话要点

ShowUI-$π$:提出基于Flow的生成模型,实现GUI界面的灵巧操作。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: GUI代理 Flow模型 连续动作生成 人机交互 拖动操作 ScreenDrag基准 灵巧操作

📋 核心要点

  1. 现有GUI代理依赖离散点击预测,难以实现需要连续感知和调整的自由拖动轨迹。
  2. ShowUI-$π$采用基于Flow的生成模型,统一处理离散点击和连续拖动,实现灵活交互。
  3. ScreenDrag基准测试表明,ShowUI-$π$性能优于现有商业GUI代理,参数量更少。

📝 摘要(中文)

本文提出ShowUI-$π$,首个基于Flow的生成模型,作为GUI界面的灵巧手。该模型具有以下设计:(i)统一离散-连续动作空间,整合离散点击和连续拖动,灵活适应不同交互模式;(ii)基于Flow的动作生成,用于拖动建模,通过轻量级动作专家从连续视觉观察中预测增量光标调整,确保轨迹平滑稳定;(iii)拖动训练数据和基准,手动收集并合成跨五个领域的2万条拖动轨迹(如PowerPoint、Adobe Premiere Pro),并引入ScreenDrag基准,包含全面的在线和离线评估协议,用于评估GUI代理的拖动能力。实验表明,商业GUI代理在ScreenDrag上表现不佳(如Operator得分13.27,最佳Gemini-2.5-CUA达到22.18)。相比之下,ShowUI-$π$仅用4.5亿参数就达到了26.98,突显了任务的难度和我们方法的有效性。我们希望这项工作能推动GUI代理朝着数字世界中类人灵巧控制的方向发展。

🔬 方法详解

问题定义:现有GUI代理主要通过预测离散的点击坐标来进行操作,这种方式无法处理需要连续控制的拖动任务,例如拖动进度条。现有方法的痛点在于无法生成平滑、自然的连续动作轨迹,缺乏对环境变化的实时适应能力。

核心思路:论文的核心思路是将GUI操作建模为一个连续的动作生成过程,利用基于Flow的生成模型来预测光标的增量调整,从而实现平滑的拖动轨迹。这种方法能够更好地捕捉连续动作的细微变化,并根据视觉反馈进行实时调整。

技术框架:ShowUI-$π$的整体框架包含以下几个主要模块:(1) 视觉感知模块,用于从GUI界面中提取视觉特征;(2) 动作专家模块,基于Flow模型,根据视觉特征预测光标的增量调整;(3) 动作执行模块,将预测的增量调整转化为实际的光标移动。整个流程是一个闭环控制过程,可以根据环境反馈不断调整动作。

关键创新:最重要的技术创新点在于使用基于Flow的生成模型来建模连续动作。与传统的离散动作预测方法相比,Flow模型能够生成更加平滑、自然的动作轨迹,并且能够更好地处理不确定性。此外,统一离散和连续动作空间也是一个创新点,使得模型可以灵活地处理不同类型的GUI交互。

关键设计:Flow模型采用轻量级架构,以保证实时性。损失函数的设计考虑了轨迹的平滑性和准确性。训练数据包括手动收集和合成的拖动轨迹,以增加数据的多样性。ScreenDrag基准的评估指标包括在线和离线指标,以全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ShowUI-$π$在ScreenDrag基准测试中取得了显著的性能提升。例如,ShowUI-$π$的Operator得分达到了26.98,而商业GUI代理Operator和Gemini-2.5-CUA的得分分别为13.27和22.18。这表明ShowUI-$π$在处理连续拖动任务方面具有明显的优势,并且参数量更少,仅为4.5亿。

🎯 应用场景

该研究成果可应用于自动化测试、智能助手、游戏AI等领域。例如,可以利用该技术自动进行软件测试,模拟用户在GUI界面上的操作,发现潜在的bug。此外,还可以将其应用于智能助手中,实现更加智能化的GUI交互,提升用户体验。在游戏AI领域,可以用于控制游戏角色进行复杂的GUI操作。

📄 摘要(原文)

Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-$π$, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-$π$ achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.