Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

作者: Zhou Xu, Bowen Zhou, Qi Wang, Shuwen Feng, Jingyu Xiao

分类: cs.CV, cs.AI

发布日期: 2026-02-26

💡 一句话要点

GUIPruner：针对高分辨率GUI代理的时空Token剪枝，提升效率并保持性能。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: GUI代理 时空剪枝 模型压缩 高分辨率 免训练

📋 核心要点

高分辨率GUI代理面临时空冗余带来的效率瓶颈，现有方法未能有效利用代理的“衰减记忆”和保持空间拓扑结构。
GUIPruner通过时间自适应分辨率（TAR）消除历史冗余，并采用分层结构感知剪枝（SSP）保护全局布局，提升效率。
实验表明，GUIPruner在Qwen2-VL-2B上实现了显著的FLOPs减少和速度提升，同时保持了较高的性能水平。

📝 摘要（中文）

纯视觉GUI代理提供了通用的交互能力，但由于高分辨率截图和历史轨迹中存在大量的时空冗余，导致效率严重受限。现有压缩范式存在两个关键错位：时间上的不匹配，即统一的历史编码与代理的“衰减记忆”注意模式不符；空间拓扑冲突，即非结构化剪枝损害了精确坐标定位所需的网格完整性，导致空间幻觉。为了解决这些挑战，我们引入了GUIPruner，这是一个专为高分辨率GUI导航量身定制的免训练框架。它协同了时间自适应分辨率（TAR），通过基于衰减的调整大小来消除历史冗余，以及分层结构感知剪枝（SSP），优先考虑交互式前景和语义锚点，同时保护全局布局。在各种基准上的广泛评估表明，GUIPruner始终如一地实现了最先进的性能，有效地防止了大规模模型在高压缩下的崩溃。值得注意的是，在Qwen2-VL-2B上，我们的方法实现了3.4倍的FLOPs减少和3.3倍的视觉编码延迟加速，同时保留了超过94%的原始性能，从而以最小的资源消耗实现实时、高精度的导航。

🔬 方法详解

问题定义：现有纯视觉GUI代理在高分辨率场景下，由于截图和历史轨迹的时空冗余，计算效率低下。现有的压缩方法，如均匀历史编码和非结构化剪枝，与代理的“衰减记忆”注意模式以及精确坐标定位所需的网格完整性相悖，导致性能下降甚至空间幻觉。

核心思路：GUIPruner的核心思路是针对GUI代理的时空冗余，设计一种免训练的剪枝框架，该框架能够自适应地处理时间维度上的信息衰减，并保持空间结构上的完整性，从而在保证性能的前提下，显著降低计算复杂度。

技术框架：GUIPruner框架包含两个主要模块：时间自适应分辨率（TAR）和分层结构感知剪枝（SSP）。TAR模块通过基于衰减的图像缩放，减少历史信息的冗余；SSP模块则优先保留交互式前景和语义锚点，同时维护全局布局，实现结构化的剪枝。整个流程无需训练，可以直接应用于预训练的GUI代理模型。

关键创新：GUIPruner的关键创新在于其针对GUI代理的特性，提出了时空协同的剪枝策略。TAR模块模拟了代理的“衰减记忆”，SSP模块则避免了非结构化剪枝带来的空间幻觉问题。这种针对性的设计使得GUIPruner能够在高压缩率下保持较高的性能。

关键设计：TAR模块的关键设计在于衰减函数的选择，该函数决定了历史图像的缩放比例。SSP模块的关键设计在于如何定义和提取交互式前景和语义锚点，以及如何设计分层剪枝策略以保证全局布局的完整性。具体的参数设置和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

GUIPruner在Qwen2-VL-2B模型上实现了显著的性能提升。具体而言，该方法在保持超过94%原始性能的同时，将FLOPs降低了3.4倍，视觉编码延迟加速了3.3倍。这些结果表明，GUIPruner能够有效地压缩模型，并在高分辨率GUI导航任务中实现实时、高精度的交互。

🎯 应用场景

GUIPruner可应用于各种需要高效GUI交互的场景，例如移动设备上的自动化测试、资源受限环境下的智能助手、以及需要实时响应的高精度机器人控制。通过降低计算成本和提高响应速度，GUIPruner能够推动GUI代理在实际应用中的普及，并为未来的智能交互系统提供更强大的支持。

📄 摘要（原文）

Pure-vision GUI agents provide universal interaction capabilities but suffer from severe efficiency bottlenecks due to the massive spatiotemporal redundancy inherent in high-resolution screenshots and historical trajectories. We identify two critical misalignments in existing compression paradigms: the temporal mismatch, where uniform history encoding diverges from the agent's "fading memory" attention pattern, and the spatial topology conflict, where unstructured pruning compromises the grid integrity required for precise coordinate grounding, inducing spatial hallucinations. To address these challenges, we introduce GUIPruner, a training-free framework tailored for high-resolution GUI navigation. It synergizes Temporal-Adaptive Resolution (TAR), which eliminates historical redundancy via decay-based resizing, and Stratified Structure-aware Pruning (SSP), which prioritizes interactive foregrounds and semantic anchors while safeguarding global layout. Extensive evaluations across diverse benchmarks demonstrate that GUIPruner consistently achieves state-of-the-art performance, effectively preventing the collapse observed in large-scale models under high compression. Notably, on Qwen2-VL-2B, our method delivers a 3.4x reduction in FLOPs and a 3.3x speedup in vision encoding latency while retaining over 94% of the original performance, enabling real-time, high-precision navigation with minimal resource consumption.

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理