E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion
作者: Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu
分类: cs.CV, cs.HC
发布日期: 2024-06-20 (更新: 2024-07-01)
备注: 9 pages, 5 figures, Under review
💡 一句话要点
提出E-ANT大规模中文GUI导航数据集,促进多模态大模型在移动设备上的应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI导航 多模态大语言模型 数据集 中文 移动应用
📋 核心要点
- 移动设备上的在线GUI导航日益重要,但现有的多模态大语言模型(MLLM)需要高质量数据来提升导航决策能力。
- 论文构建了E-ANT数据集,包含真实用户行为和带注释的屏幕截图,旨在提升MLLM在中文GUI导航任务中的性能。
- 通过在E-ANT上评估多种MLLM,并进行消融实验,验证了数据集的有效性,为GUI导航和LLM/MLLM决策能力的发展提供支持。
📝 摘要(中文)
本文提出了一个名为E-ANT的全新且极具价值的数据集,它是首个中文GUI导航数据集,包含真实的人类行为和高质量的带注释的屏幕截图,涵盖了超过5000个不同的小程序上的近40,000条真实人类轨迹。此外,我们在E-ANT上评估了各种强大的多模态大语言模型(MLLM),并展示了它们的实验结果以及充分的消融研究。我们相信,我们提出的数据集将有利于GUI导航和LLM/MLLM决策能力的评估和发展。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在中文移动设备GUI导航任务中缺乏高质量训练数据的问题。现有方法依赖的数据集规模小、质量低,难以充分训练MLLM,导致导航决策的准确性不足。
核心思路:论文的核心思路是构建一个大规模、高质量的中文GUI导航数据集E-ANT,该数据集包含真实用户行为轨迹和带注释的屏幕截图,从而为MLLM提供充足的训练数据,提升其在GUI导航任务中的性能。通过模拟真实用户操作,使模型学习到更符合人类习惯的导航策略。
技术框架:E-ANT数据集的构建流程主要包括数据采集、数据清洗、数据标注三个阶段。数据采集阶段通过收集真实用户在使用小程序时的操作轨迹和屏幕截图来获取原始数据。数据清洗阶段对原始数据进行过滤和校正,去除无效或错误的数据。数据标注阶段对屏幕截图进行详细的标注,包括可交互元素的类型、位置、文本内容等信息。最终,将处理后的数据整理成统一的格式,方便MLLM进行训练和评估。
关键创新:E-ANT数据集的关键创新在于其规模和质量。相比于现有的GUI导航数据集,E-ANT包含更多的小程序和用户轨迹,覆盖了更广泛的应用场景。此外,E-ANT的数据标注更加精细,提供了更丰富的信息,有助于MLLM更好地理解GUI的结构和语义。另一个创新点是数据集完全是中文的,更贴合国内的应用环境。
关键设计:E-ANT数据集的关键设计包括:(1) 收集了超过5000个不同小程序的真实用户轨迹,保证了数据集的多样性;(2) 对每个屏幕截图进行了详细的标注,包括可交互元素的类型、位置、文本内容等信息,为MLLM提供了丰富的上下文信息;(3) 采用了严格的数据清洗和校正流程,保证了数据的质量;(4) 数据集以统一的格式存储,方便MLLM进行训练和评估。具体参数设置和损失函数等技术细节在论文中未明确提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了包含近40,000条真实人类轨迹的E-ANT数据集,涵盖5000+不同小程序。通过在E-ANT上评估多种MLLM,并进行消融实验,验证了数据集的有效性。具体性能数据和提升幅度在摘要中未明确提及,属于未知信息。该数据集为GUI导航和LLM/MLLM决策能力的发展提供了重要资源。
🎯 应用场景
该研究成果可广泛应用于智能助手、自动化测试、无障碍辅助等领域。例如,智能助手可以利用该数据集训练的模型,帮助用户自动完成在移动设备上的操作,提高用户体验。自动化测试可以利用该数据集评估移动应用的可用性和易用性。无障碍辅助可以利用该数据集为残障人士提供更便捷的移动设备操作方式。未来,该研究有望推动移动互联网应用的智能化和普及。
📄 摘要(原文)
Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities.