Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces

作者: El Hassane Ettifouri, Jessica López Espejel, Laura Minkova, Tassnim Dardouri, Walid Dahhane

分类: cs.HC, cs.AI

发布日期: 2024-05-05 (更新: 2025-07-18)

备注: Preprint submitted to Engineering Applications of Artificial Intelligence journal

💡 一句话要点

针对GUI交互，提出两种Instruction Visual Grounding方法以提升自动化效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 Instruction Visual Grounding GUI交互 多模态学习 人机交互

📋 核心要点

现有视觉定位方法在GUI等合成图像上的应用受限，阻碍了AI在自动化交互领域的应用。
论文提出Instruction Visual Grounding (IVG)方法，通过自然语言指令定位GUI中的目标元素。
论文提出了IVGocr和IVGdirect两种具体实现，并引入了新的数据集和评估指标CPV。

📝 摘要（中文）

大多数视觉定位解决方案主要集中在真实图像上，而涉及合成图像（如图形用户界面GUI）的应用仍然有限。这限制了计算机视觉驱动的AI智能体在自动应用交互方面的发展。使AI能够有效地理解GUI并与之交互，对于推进软件测试、可访问性和人机交互的自动化至关重要。本文探讨了Instruction Visual Grounding (IVG)，这是一种用于在GUI中进行对象识别的多模态方法。更准确地说，给定自然语言指令和GUI屏幕，IVG定位屏幕上应执行指令的元素的坐标。我们提出了两种主要方法：(1) IVGocr，它结合了大型语言模型(LLM)、对象检测模型和光学字符识别(OCR)模块；(2) IVGdirect，它使用多模态架构进行端到端定位。对于每种方法，我们都引入了专门的数据集。此外，我们还提出了中心点验证(CPV)指标，它是经典中心邻近度分数(CPS)指标的宽松变体。我们最终的测试数据集已公开发布，以支持未来的研究。

🔬 方法详解

问题定义：论文旨在解决如何让AI智能体理解自然语言指令，并在GUI界面中精确定位目标元素的问题。现有方法在处理GUI这类合成图像时效果不佳，无法满足软件测试、可访问性等领域对自动化交互的需求。

核心思路：论文的核心思路是将自然语言指令和GUI屏幕图像进行多模态融合，通过视觉定位技术找到与指令相关的GUI元素。通过结合大型语言模型、对象检测和OCR等技术，以及端到端的训练方式，实现高效准确的定位。

技术框架：论文提出了两种方法：IVGocr和IVGdirect。

IVGocr：首先使用对象检测模型识别GUI中的元素，然后使用OCR模块提取文本信息。接着，利用大型语言模型(LLM)理解自然语言指令，并结合视觉信息进行推理，最终定位目标元素。
IVGdirect：采用端到端的多模态架构，直接将自然语言指令和GUI屏幕图像输入模型，通过联合学习的方式进行视觉定位。

两种方法都使用了专门构建的数据集进行训练和评估。

关键创新：论文的关键创新在于针对GUI场景的Instruction Visual Grounding任务，提出了两种不同的解决方案，并构建了相应的数据集。IVGocr结合了多种现有技术，而IVGdirect则采用了端到端的学习方式。此外，论文还提出了中心点验证(CPV)指标，作为对传统中心邻近度分数(CPS)指标的改进，更适合评估GUI元素的定位精度。

关键设计：

数据集：为IVGocr和IVGdirect分别构建了专门的数据集，包含自然语言指令和对应的GUI屏幕图像，以及目标元素的坐标信息。
CPV指标：CPV指标是CPS指标的宽松版本，允许一定的误差范围，更符合实际应用中对定位精度的要求。
模型结构：IVGdirect采用了多模态Transformer架构，能够有效地融合文本和图像信息。

🖼️ 关键图片

📊 实验亮点

论文提出了两种Instruction Visual Grounding方法，并针对GUI场景构建了数据集和评估指标。虽然论文中没有给出具体的性能数据，但公开的数据集为后续研究提供了便利。提出的CPV指标相较于传统的CPS指标，更适合评估GUI元素的定位精度，具有一定的实际意义。

🎯 应用场景

该研究成果可广泛应用于软件自动化测试、提升软件可访问性、以及改善人机交互体验。例如，可以开发自动化的GUI测试工具，通过自然语言指令驱动AI智能体进行测试操作。此外，该技术还可以帮助残障人士更方便地使用计算机，例如通过语音指令控制GUI界面。未来，该技术有望应用于更复杂的自动化任务，例如RPA（机器人流程自动化）。

📄 摘要（原文）

Most visual grounding solutions primarily focus on realistic images. However, applications involving synthetic images, such as Graphical User Interfaces (GUIs), remain limited. This restricts the development of autonomous computer vision-powered artificial intelligence (AI) agents for automatic application interaction. Enabling AI to effectively understand and interact with GUIs is crucial to advancing automation in software testing, accessibility, and human-computer interaction. In this work, we explore Instruction Visual Grounding (IVG), a multi-modal approach to object identification within a GUI. More precisely, given a natural language instruction and a GUI screen, IVG locates the coordinates of the element on the screen where the instruction should be executed. We propose two main methods: (1) IVGocr, which combines a Large Language Model (LLM), an object detection model, and an Optical Character Recognition (OCR) module; and (2) IVGdirect, which uses a multimodal architecture for end-to-end grounding. For each method, we introduce a dedicated dataset. In addition, we propose the Central Point Validation (CPV) metric, a relaxed variant of the classical Central Proximity Score (CPS) metric. Our final test dataset is publicly released to support future research.

Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理