DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding

📄 arXiv: 2605.15542v1 📥 PDF

作者: Yichao Liu, Huawen Shen, Liu Yu, Shiyu Liu, Zeyu Chen, Yu Zhou

分类: cs.AI

发布日期: 2026-05-15

备注: 11 pages, 8 figures


💡 一句话要点

DRS-GUI:免训练动态区域搜索,提升GUI界面元素定位精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI元素定位 多模态大语言模型 动态区域搜索 蒙特卡洛树搜索 免训练学习 人机交互 计算机视觉

📋 核心要点

  1. 现有方法难以从复杂的GUI截图中精确定位与用户指令相关的元素,导致定位精度不足。
  2. DRS-GUI模仿人类动态调整感知范围的方式,通过UI感知器和动作规划器逐步探索界面,定位关键区域。
  3. 实验结果表明,DRS-GUI在GUI元素定位任务上取得了显著提升,尤其是在ScreenSpot-Pro数据集上。

📝 摘要(中文)

本文提出DRS-GUI,一个免训练的动态区域搜索框架,用于提升多模态大语言模型(MLLMs)在GUI界面元素定位方面的能力。现有方法难以从高分辨率、包含大量无关UI组件的截图中精确定位指令相关的元素。受人类在复杂屏幕上动态调整感知范围以定位任务相关区域的启发,DRS-GUI引入了一个轻量级的UI感知器,执行三种类似人类的感知动作(聚焦、平移和分散)来逐步探索界面并生成区域提议。为了动态调度这些动作,进一步设计了一个基于蒙特卡洛树搜索(MCTS)的动作规划器。使用区域质量奖励来评估和选择高度指令相关的区域,从而有效地修剪冗余的UI元素。实验表明,DRS-GUI在ScreenSpot-Pro上对通用和GUI特定的MLLM(Qwen2.5-VL-7B和UGround-V1-7B)产生了14%的改进,显著提高了定位性能和泛化能力。

🔬 方法详解

问题定义:现有基于多模态大语言模型(MLLMs)的GUI代理在理解和执行用户指令方面表现出色,但从包含大量无关UI组件的高分辨率截图中准确地定位指令相关的元素仍然是一个挑战。现有方法难以有效区分相关和不相关的UI元素,导致定位精度下降。

核心思路:DRS-GUI的核心思路是模仿人类在复杂界面上寻找目标时的动态感知过程。通过逐步探索和聚焦关键区域,减少无关信息的干扰,从而提高定位精度。这种动态搜索策略避免了对整个屏幕进行全局分析,提高了效率。

技术框架:DRS-GUI包含两个主要模块:UI感知器和动作规划器。UI感知器负责执行三种感知动作(聚焦、平移和分散)来生成区域提议。动作规划器基于蒙特卡洛树搜索(MCTS)动态调度这些动作,并使用区域质量奖励来评估和选择最佳区域。整个流程迭代进行,直到找到最相关的UI元素。

关键创新:DRS-GUI的关键创新在于其免训练的动态区域搜索策略。与需要大量训练数据的传统方法不同,DRS-GUI通过模仿人类的感知过程,利用MCTS进行动作规划,从而实现高效的区域定位。这种方法具有更好的泛化能力,可以适应不同的GUI界面。

关键设计:UI感知器中的三种动作(聚焦、平移和分散)的设计灵感来源于人类的视觉搜索行为。聚焦动作用于放大感兴趣的区域,平移动作用于探索相邻区域,分散动作用于跳出局部最优。动作规划器使用MCTS来选择最佳动作序列,并使用区域质量奖励来评估每个区域的指令相关性。奖励函数的设计至关重要,需要能够准确反映区域与用户指令之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DRS-GUI在ScreenSpot-Pro数据集上取得了显著的性能提升,对通用和GUI特定的MLLM(Qwen2.5-VL-7B和UGround-V1-7B)产生了14%的改进。实验结果表明,DRS-GUI能够有效地提高GUI元素定位的精度和泛化能力,尤其是在处理复杂界面时。

🎯 应用场景

DRS-GUI具有广泛的应用前景,可以应用于自动化测试、智能助手、无障碍设计等领域。例如,在自动化测试中,DRS-GUI可以帮助机器人自动定位和操作GUI元素,提高测试效率。在智能助手中,DRS-GUI可以帮助用户更方便地与GUI界面进行交互。在无障碍设计中,DRS-GUI可以帮助视力障碍者更好地理解和操作GUI界面。

📄 摘要(原文)

GUI agents powered by Multimodal Large Language Models (MLLMs) have demonstrated impressive capability in understanding and executing user instructions. However, accurately grounding instruction-relevant elements from high-resolution screenshots cluttered with irrelevant UI components remains challenging for existing approaches. Inspired by how humans dynamically adjust their perceptual scope to locate task-related regions on complex screens, we propose DRS-GUI, a training-free dynamic region search framework for GUI grounding that can be seamlessly integrated into existing MLLMs. DRS-GUI introduces a lightweight UI Perceptor that performs three human-like perceptual actions (Focus, Shift, and Scatter) to progressively explore the interface and generate region proposals. To dynamically schedule these actions, we further design an Action Planner based on Monte Carlo Tree Search (MCTS). A region quality reward is employed to evaluate and select the highly instruction-relevant region, efficiently pruning redundant UI elements. Experiments demonstrate that DRS-GUI yields a 14\% improvement on ScreenSpot-Pro for general and GUI-specific MLLMs (Qwen2.5-VL-7B and UGround-V1-7B), significantly enhancing grounding performance and generalization.