iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception

作者: Sarthak Mehrotra, Sairam V C Rebbapragada, Mani Hemanth Reddy Bonthu, Vineeth N Balasubramanian

分类: cs.CV

发布日期: 2025-12-26

💡 一句话要点

iSHIFT：轻量级自适应感知的慢-快GUI代理，提升交互效率与精度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI交互 多模态大型语言模型 慢-快推理 自适应感知 感知Token

📋 核心要点

现有GUI代理在处理需要精确视觉定位的任务时，准确性不足，且模型体积较大，推理深度无法自适应调整。
iSHIFT通过集成潜在思维和感知控制模块，使MLLM能够在慢速（高精度）和快速（高效率）模式之间切换。
iSHIFT是一个轻量级（2.5B）模型，通过感知token引导注意力，在多个基准数据集上达到了最先进的性能。

📝 摘要（中文）

多模态大型语言模型(MLLM)在解释和交互复杂的、像素丰富的图形用户界面(GUI)环境方面显示出强大的潜力。然而，构建既能高效处理高层任务又能精确处理细粒度交互的代理仍然具有挑战性。GUI代理必须高效地执行常规操作，同时处理需要精确视觉定位的任务，但现有方法在准确性依赖于识别特定界面元素时会遇到困难。这些MLLM通常体积庞大，并且无法根据手头的任务调整其推理深度。本文介绍iSHIFT：具有灵活token的隐式慢-快混合推理，这是一种轻量级代理，它集成了潜在思维(隐式思维链)和感知控制模块。iSHIFT使MLLM能够在慢模式(利用详细的视觉定位以获得高精度)和快模式(使用全局线索以提高效率)之间切换。特殊的感知token引导注意力到相关的屏幕区域，允许模型决定如何推理以及在哪里集中注意力。尽管iSHIFT只有2.5B大小，但它在多个基准数据集上匹配了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决现有GUI代理在处理复杂GUI交互任务时，效率与精度难以兼顾的问题。现有方法要么计算量大、推理速度慢，要么精度不足，无法准确识别GUI中的细粒度元素，导致交互失败。特别是在需要精确视觉定位的任务中，现有方法的痛点尤为明显。

核心思路：iSHIFT的核心思路是引入一种“慢-快”混合推理机制，使代理能够根据任务的复杂程度自适应地调整推理深度和计算资源。对于需要高精度的任务，采用“慢模式”，进行详细的视觉定位；对于简单的任务，采用“快模式”，利用全局线索快速决策。同时，通过“感知token”引导模型关注屏幕上的关键区域，提高视觉感知的效率。

技术框架：iSHIFT的技术框架主要包含以下几个模块：1) 多模态大型语言模型(MLLM)作为基础模型；2) 隐式思维链(Implicit Chain-of-Thought)用于潜在推理；3) 感知控制模块，负责控制推理模式的切换和感知token的生成；4) 慢模式，利用详细的视觉信息进行精确推理；5) 快模式，利用全局信息进行快速推理。整体流程是：输入GUI界面图像和任务描述，感知控制模块根据任务复杂度选择推理模式，并生成感知token引导MLLM关注关键区域，最后输出交互动作。

关键创新：iSHIFT的关键创新在于其“慢-快”混合推理机制和感知token的设计。与现有方法相比，iSHIFT能够根据任务自适应地调整推理深度，从而在效率和精度之间取得平衡。感知token的引入，使得模型能够更加高效地利用视觉信息，提高了视觉感知的效率。此外，iSHIFT模型体积较小（2.5B），更易于部署和应用。

关键设计：感知token的设计是iSHIFT的关键。这些token嵌入到输入序列中，引导模型关注屏幕上的特定区域。具体实现上，可以通过可学习的embedding层将屏幕区域的视觉特征转换为token表示。感知控制模块负责决定何时以及如何使用这些token。损失函数可能包含一个正则化项，鼓励模型使用更少的token来完成任务，从而提高效率。网络结构方面，可能采用了Transformer架构，并针对GUI交互任务进行了优化。

🖼️ 关键图片

📊 实验亮点

iSHIFT在多个GUI交互基准数据集上取得了与最先进模型相媲美的性能，同时模型大小仅为2.5B，显著降低了计算成本。实验结果表明，iSHIFT的“慢-快”混合推理机制和感知token设计能够有效提高GUI交互的效率和精度。

🎯 应用场景

iSHIFT具有广泛的应用前景，可用于自动化测试、智能助手、无障碍辅助等领域。例如，可以用于自动化测试GUI应用程序，提高测试效率和覆盖率；可以作为智能助手的核心模块，帮助用户完成各种GUI操作；可以为残障人士提供无障碍辅助，使他们能够更加方便地使用计算机。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) show strong potential for interpreting and interacting with complex, pixel-rich Graphical User Interface (GUI) environments. However, building agents that are both efficient for high-level tasks and precise for fine-grained interactions remains challenging. GUI agents must perform routine actions efficiently while also handling tasks that demand exact visual grounding, yet existing approaches struggle when accuracy depends on identifying specific interface elements. These MLLMs also remain large and cannot adapt their reasoning depth to the task at hand. In this work, we introduce iSHIFT: Implicit Slow-fast Hybrid Inference with Flexible Tokens, a lightweight agent that integrates latent thinking (implicit chain-of-thought) with a perception control module. iSHIFT enables an MLLM to switch between a slow mode, which leverages detailed visual grounding for high precision and a fast mode that uses global cues for efficiency. Special perception tokens guide attention to relevant screen regions, allowing the model to decide both how to reason and where to focus. Despite its compact 2.5B size, iSHIFT matches state-of-the-art performance on multiple benchmark datasets.

iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理