Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
作者: Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
分类: cs.CL, cs.CV
发布日期: 2024-06-27 (更新: 2024-10-25)
💡 一句话要点
提出基于Tree-of-Lens的GUI屏幕阅读代理,解决用户指定位置的屏幕内容理解问题。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI理解 屏幕阅读 多模态大语言模型 布局分析 人机交互
📋 核心要点
- 现有GUI理解方法忽略了基于用户指定点的屏幕阅读任务,传统屏幕阅读工具缺乏对布局和空间关系的理解。
- 论文提出Tree-of-Lens (ToL)代理,通过构建分层布局树来理解GUI元素的内容、布局和空间关系。
- 在ScreenPR基准测试中,ToL代理优于其他基线,并在移动GUI导航任务中展现了识别错误操作的能力。
📝 摘要(中文)
图形用户界面(GUI)是我们与数字设备交互的核心。越来越多的工作致力于构建模型来完成各种GUI理解任务。然而,这些工作在很大程度上忽略了一个重要的GUI相关任务:基于用户指示点的屏幕阅读,我们称之为屏幕点读(ScreenPR)任务。目前,这项任务主要由死板的辅助屏幕阅读工具处理,迫切需要多模态大语言模型(MLLM)驱动的新模型。在本文中,我们提出了一个Tree-of-Lens (ToL)代理,利用一种新的ToL grounding机制来解决ScreenPR任务。基于输入的点坐标和相应的GUI屏幕截图,我们的ToL代理构建了一个分层布局树。基于该树,我们的ToL代理不仅可以理解指示区域的内容,还可以阐明元素之间的布局和空间关系。这种布局信息对于准确解释屏幕上的信息至关重要,这使得我们的ToL代理与其他屏幕阅读工具区分开来。我们还在新提出的ScreenPR基准上,针对来自移动、Web和操作系统的GUI,对ToL代理与其他基线进行了全面评估。最后但并非最不重要的一点是,我们在移动GUI导航任务上测试了ToL代理,证明了它在识别代理执行轨迹中不正确操作方面的效用。
🔬 方法详解
问题定义:论文旨在解决Screen Point-and-Read (ScreenPR)任务,即根据用户在GUI屏幕上指定的点,准确理解该点周围的屏幕内容,包括内容本身以及与周围元素的布局关系。现有屏幕阅读工具通常是死板的,缺乏对GUI布局和空间关系的理解,导致无法准确理解屏幕信息。
核心思路:论文的核心思路是利用多模态大语言模型(MLLM)结合GUI的布局信息,构建一个能够理解屏幕内容及其布局的代理。通过构建分层布局树(Hierarchical Layout Tree),代理可以理解GUI元素的层级关系和空间关系,从而更准确地理解屏幕信息。
技术框架:ToL代理的整体框架包括以下几个阶段:1) 接收用户指定的点坐标和GUI屏幕截图作为输入;2) 基于输入构建分层布局树(Hierarchical Layout Tree);3) 利用MLLM结合布局树的信息,理解指示区域的内容以及元素之间的布局和空间关系;4) 输出对屏幕内容的理解结果。
关键创新:论文最重要的技术创新点在于Tree-of-Lens (ToL) grounding机制,它允许代理利用分层布局树来理解GUI元素的布局和空间关系。与现有方法相比,ToL代理能够更好地理解屏幕内容的上下文信息,从而更准确地理解屏幕信息。
关键设计:论文的关键设计包括:1) 分层布局树的构建方法,如何从GUI屏幕截图中提取元素并构建树结构;2) 如何将布局树的信息融入到MLLM中,例如通过特定的prompt设计或注意力机制;3) 针对ScreenPR任务设计的评估指标。
🖼️ 关键图片
📊 实验亮点
论文提出了一个新的ScreenPR基准,并在该基准上对ToL代理进行了评估。实验结果表明,ToL代理在ScreenPR任务上显著优于其他基线方法。此外,在移动GUI导航任务中,ToL代理能够有效地识别代理执行轨迹中的错误操作,验证了其在实际应用中的有效性。
🎯 应用场景
该研究成果可应用于辅助技术领域,帮助视障人士更方便地使用数字设备。此外,还可以应用于自动化测试、智能助手等领域,例如,智能助手可以根据用户在屏幕上的点击位置,自动理解用户的意图并执行相应的操作。未来,该技术有望进一步提升人机交互的效率和智能化水平。
📄 摘要(原文)
Graphical User Interfaces (GUIs) are central to our interaction with digital devices and growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (ScreenPR) task. Currently, this task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the ScreenPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed ScreenPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: https://screen-point-and-read.github.io