Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces

📄 arXiv: 2407.01558v3 📥 PDF

作者: El Hassane Ettifouri, Jessica López Espejel, Laura Minkova, Tassnim Dardouri, Walid Dahhane

分类: cs.HC, cs.AI

发布日期: 2024-05-05 (更新: 2025-07-18)

备注: Preprint submitted to Engineering Applications of Artificial Intelligence journal


💡 一句话要点

针对GUI交互,提出两种Instruction Visual Grounding方法以提升自动化效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 Instruction Visual Grounding GUI交互 多模态学习 人机交互

📋 核心要点

  1. 现有视觉定位方法在GUI等合成图像上的应用受限,阻碍了AI在自动化交互领域的应用。
  2. 论文提出Instruction Visual Grounding (IVG)方法,通过自然语言指令定位GUI中的目标元素。
  3. 论文提出了IVGocr和IVGdirect两种具体实现,并引入了新的数据集和评估指标CPV。

📝 摘要(中文)

大多数视觉定位解决方案主要集中在真实图像上,而涉及合成图像(如图形用户界面GUI)的应用仍然有限。这限制了计算机视觉驱动的AI智能体在自动应用交互方面的发展。使AI能够有效地理解GUI并与之交互,对于推进软件测试、可访问性和人机交互的自动化至关重要。本文探讨了Instruction Visual Grounding (IVG),这是一种用于在GUI中进行对象识别的多模态方法。更准确地说,给定自然语言指令和GUI屏幕,IVG定位屏幕上应执行指令的元素的坐标。我们提出了两种主要方法:(1) IVGocr,它结合了大型语言模型(LLM)、对象检测模型和光学字符识别(OCR)模块;(2) IVGdirect,它使用多模态架构进行端到端定位。对于每种方法,我们都引入了专门的数据集。此外,我们还提出了中心点验证(CPV)指标,它是经典中心邻近度分数(CPS)指标的宽松变体。我们最终的测试数据集已公开发布,以支持未来的研究。

🔬 方法详解

问题定义:论文旨在解决如何让AI智能体理解自然语言指令,并在GUI界面中精确定位目标元素的问题。现有方法在处理GUI这类合成图像时效果不佳,无法满足软件测试、可访问性等领域对自动化交互的需求。

核心思路:论文的核心思路是将自然语言指令和GUI屏幕图像进行多模态融合,通过视觉定位技术找到与指令相关的GUI元素。通过结合大型语言模型、对象检测和OCR等技术,以及端到端的训练方式,实现高效准确的定位。

技术框架:论文提出了两种方法:IVGocr和IVGdirect。

两种方法都使用了专门构建的数据集进行训练和评估。

关键创新:论文的关键创新在于针对GUI场景的Instruction Visual Grounding任务,提出了两种不同的解决方案,并构建了相应的数据集。IVGocr结合了多种现有技术,而IVGdirect则采用了端到端的学习方式。此外,论文还提出了中心点验证(CPV)指标,作为对传统中心邻近度分数(CPS)指标的改进,更适合评估GUI元素的定位精度。

关键设计

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了两种Instruction Visual Grounding方法,并针对GUI场景构建了数据集和评估指标。虽然论文中没有给出具体的性能数据,但公开的数据集为后续研究提供了便利。提出的CPV指标相较于传统的CPS指标,更适合评估GUI元素的定位精度,具有一定的实际意义。

🎯 应用场景

该研究成果可广泛应用于软件自动化测试、提升软件可访问性、以及改善人机交互体验。例如,可以开发自动化的GUI测试工具,通过自然语言指令驱动AI智能体进行测试操作。此外,该技术还可以帮助残障人士更方便地使用计算机,例如通过语音指令控制GUI界面。未来,该技术有望应用于更复杂的自动化任务,例如RPA(机器人流程自动化)。

📄 摘要(原文)

Most visual grounding solutions primarily focus on realistic images. However, applications involving synthetic images, such as Graphical User Interfaces (GUIs), remain limited. This restricts the development of autonomous computer vision-powered artificial intelligence (AI) agents for automatic application interaction. Enabling AI to effectively understand and interact with GUIs is crucial to advancing automation in software testing, accessibility, and human-computer interaction. In this work, we explore Instruction Visual Grounding (IVG), a multi-modal approach to object identification within a GUI. More precisely, given a natural language instruction and a GUI screen, IVG locates the coordinates of the element on the screen where the instruction should be executed. We propose two main methods: (1) IVGocr, which combines a Large Language Model (LLM), an object detection model, and an Optical Character Recognition (OCR) module; and (2) IVGdirect, which uses a multimodal architecture for end-to-end grounding. For each method, we introduce a dedicated dataset. In addition, we propose the Central Point Validation (CPV) metric, a relaxed variant of the classical Central Proximity Score (CPS) metric. Our final test dataset is publicly released to support future research.