Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces
作者: El Hassane Ettifouri, Jessica López Espejel, Laura Minkova, Tassnim Dardouri, Walid Dahhane
分类: cs.HC, cs.AI
发布日期: 2024-05-05 (更新: 2025-07-18)
备注: Preprint submitted to Engineering Applications of Artificial Intelligence journal
💡 一句话要点
针对GUI交互,提出两种Instruction Visual Grounding方法以提升自动化效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉定位 Instruction Visual Grounding GUI交互 多模态学习 人机交互
📋 核心要点
- 现有视觉定位方法在GUI等合成图像上的应用受限,阻碍了AI在自动化交互领域的应用。
- 论文提出Instruction Visual Grounding (IVG)方法,通过自然语言指令定位GUI中的目标元素。
- 论文提出了IVGocr和IVGdirect两种具体实现,并引入了新的数据集和评估指标CPV。
📝 摘要(中文)
大多数视觉定位解决方案主要集中在真实图像上,而涉及合成图像(如图形用户界面GUI)的应用仍然有限。这限制了计算机视觉驱动的AI智能体在自动应用交互方面的发展。使AI能够有效地理解GUI并与之交互,对于推进软件测试、可访问性和人机交互的自动化至关重要。本文探讨了Instruction Visual Grounding (IVG),这是一种用于在GUI中进行对象识别的多模态方法。更准确地说,给定自然语言指令和GUI屏幕,IVG定位屏幕上应执行指令的元素的坐标。我们提出了两种主要方法:(1) IVGocr,它结合了大型语言模型(LLM)、对象检测模型和光学字符识别(OCR)模块;(2) IVGdirect,它使用多模态架构进行端到端定位。对于每种方法,我们都引入了专门的数据集。此外,我们还提出了中心点验证(CPV)指标,它是经典中心邻近度分数(CPS)指标的宽松变体。我们最终的测试数据集已公开发布,以支持未来的研究。
🔬 方法详解
问题定义:论文旨在解决如何让AI智能体理解自然语言指令,并在GUI界面中精确定位目标元素的问题。现有方法在处理GUI这类合成图像时效果不佳,无法满足软件测试、可访问性等领域对自动化交互的需求。
核心思路:论文的核心思路是将自然语言指令和GUI屏幕图像进行多模态融合,通过视觉定位技术找到与指令相关的GUI元素。通过结合大型语言模型、对象检测和OCR等技术,以及端到端的训练方式,实现高效准确的定位。
技术框架:论文提出了两种方法:IVGocr和IVGdirect。
- IVGocr:首先使用对象检测模型识别GUI中的元素,然后使用OCR模块提取文本信息。接着,利用大型语言模型(LLM)理解自然语言指令,并结合视觉信息进行推理,最终定位目标元素。
- IVGdirect:采用端到端的多模态架构,直接将自然语言指令和GUI屏幕图像输入模型,通过联合学习的方式进行视觉定位。
两种方法都使用了专门构建的数据集进行训练和评估。
关键创新:论文的关键创新在于针对GUI场景的Instruction Visual Grounding任务,提出了两种不同的解决方案,并构建了相应的数据集。IVGocr结合了多种现有技术,而IVGdirect则采用了端到端的学习方式。此外,论文还提出了中心点验证(CPV)指标,作为对传统中心邻近度分数(CPS)指标的改进,更适合评估GUI元素的定位精度。
关键设计:
- 数据集:为IVGocr和IVGdirect分别构建了专门的数据集,包含自然语言指令和对应的GUI屏幕图像,以及目标元素的坐标信息。
- CPV指标:CPV指标是CPS指标的宽松版本,允许一定的误差范围,更符合实际应用中对定位精度的要求。
- 模型结构:IVGdirect采用了多模态Transformer架构,能够有效地融合文本和图像信息。
🖼️ 关键图片
📊 实验亮点
论文提出了两种Instruction Visual Grounding方法,并针对GUI场景构建了数据集和评估指标。虽然论文中没有给出具体的性能数据,但公开的数据集为后续研究提供了便利。提出的CPV指标相较于传统的CPS指标,更适合评估GUI元素的定位精度,具有一定的实际意义。
🎯 应用场景
该研究成果可广泛应用于软件自动化测试、提升软件可访问性、以及改善人机交互体验。例如,可以开发自动化的GUI测试工具,通过自然语言指令驱动AI智能体进行测试操作。此外,该技术还可以帮助残障人士更方便地使用计算机,例如通过语音指令控制GUI界面。未来,该技术有望应用于更复杂的自动化任务,例如RPA(机器人流程自动化)。
📄 摘要(原文)
Most visual grounding solutions primarily focus on realistic images. However, applications involving synthetic images, such as Graphical User Interfaces (GUIs), remain limited. This restricts the development of autonomous computer vision-powered artificial intelligence (AI) agents for automatic application interaction. Enabling AI to effectively understand and interact with GUIs is crucial to advancing automation in software testing, accessibility, and human-computer interaction. In this work, we explore Instruction Visual Grounding (IVG), a multi-modal approach to object identification within a GUI. More precisely, given a natural language instruction and a GUI screen, IVG locates the coordinates of the element on the screen where the instruction should be executed. We propose two main methods: (1) IVGocr, which combines a Large Language Model (LLM), an object detection model, and an Optical Character Recognition (OCR) module; and (2) IVGdirect, which uses a multimodal architecture for end-to-end grounding. For each method, we introduce a dedicated dataset. In addition, we propose the Central Point Validation (CPV) metric, a relaxed variant of the classical Central Proximity Score (CPS) metric. Our final test dataset is publicly released to support future research.