GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
作者: Quanfeng Lu, Wenqi Shao, Zitao Liu, Lingxiao Du, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Ping Luo
分类: cs.CV
发布日期: 2024-06-12 (更新: 2025-08-01)
备注: 22 pages, 14 figures, ICCV 2025, a cross-app GUI navigation dataset
💡 一句话要点
提出GUIOdyssey数据集,用于提升移动设备跨应用GUI导航Agent性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI导航 跨应用 数据集 多模态Agent 历史信息 移动设备 人机交互
📋 核心要点
- 现有GUI Agent主要在单应用内完成任务,跨应用导航性能较差,限制了其应用范围。
- 论文构建GUIOdyssey数据集,并提出OdysseyAgent,利用历史信息提升跨应用导航能力。
- 实验表明,OdysseyAgent在GUIOdyssey数据集上表现出色,验证了历史信息对复杂任务的重要性。
📝 摘要(中文)
本文提出了GUIOdyssey,一个全面的移动设备跨应用GUI导航数据集。该数据集包含8334个episode,平均每个episode 15.3步,覆盖6个移动设备、212个不同的应用和1357个应用组合。每个步骤都包含详细的语义推理标注,以帮助模型构建认知过程并增强其复杂跨应用任务的推理能力。基于GUIOdyssey,我们开发了OdysseyAgent,一个探索性的多模态Agent,用于长步跨应用导航,配备了历史重采样模块,可以有效地关注历史屏幕截图tokens,平衡性能和推理速度。在领域内和领域外场景中进行的大量实验验证了我们方法的有效性。此外,我们证明了数据集中包含的动作、屏幕截图和上下文等历史信息可以显著提高OdysseyAgent在复杂跨应用任务上的性能。
🔬 方法详解
问题定义:现有GUI导航Agent主要在单个应用程序内进行训练和评估,缺乏处理跨应用程序复杂任务的能力。这导致它们在需要多个应用程序协同完成任务的场景中表现不佳,例如,从邮件应用复制信息到笔记应用。
核心思路:论文的核心思路是构建一个包含丰富跨应用导航场景的数据集GUIOdyssey,并设计一个能够有效利用历史信息(包括动作、屏幕截图和上下文)的Agent,从而提升模型在复杂跨应用任务中的推理和导航能力。通过历史重采样模块,Agent可以关注重要的历史步骤,避免信息过载。
技术框架:整体框架包含数据集构建和Agent设计两部分。GUIOdyssey数据集包含多个episode,每个episode模拟一个用户在多个应用之间完成特定任务的过程。OdysseyAgent是一个多模态Agent,接收屏幕截图和文本指令作为输入,输出下一步要执行的动作。Agent的核心模块是历史重采样模块,用于从历史步骤中选择关键信息。
关键创新:关键创新在于数据集的构建和历史重采样模块的设计。GUIOdyssey数据集是首个专门为跨应用GUI导航设计的综合性数据集,包含了丰富的应用组合和任务场景。历史重采样模块能够有效地从长序列的历史信息中提取关键信息,避免了传统方法中信息冗余和计算复杂度高的问题。
关键设计:历史重采样模块的具体实现细节未知,论文可能使用了注意力机制或者其他序列建模技术来选择重要的历史步骤。损失函数的设计也未知,但可能包括模仿学习损失和强化学习奖励,以鼓励Agent学习有效的导航策略。网络结构细节未知,但可以推测使用了卷积神经网络处理屏幕截图,使用循环神经网络或Transformer处理文本指令和历史信息。
🖼️ 关键图片
📊 实验亮点
论文在GUIOdyssey数据集上验证了OdysseyAgent的有效性,表明历史信息能够显著提升跨应用导航性能。具体性能数据未知,但论文强调了在领域内和领域外场景中都取得了良好的效果。此外,论文还对比了OdysseyAgent与其他基线模型的性能,证明了其优越性,但具体提升幅度未知。
🎯 应用场景
该研究成果可应用于开发更智能的移动助手,帮助用户自动化完成跨应用的任务流程,例如自动预订机票、自动整理笔记等。这可以显著提升用户的工作效率和生活便利性,并为移动应用生态系统的发展带来新的可能性。未来,该技术还可扩展到其他领域,如智能家居控制和工业自动化。
📄 摘要(原文)
Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we present GUIOdyssey, a comprehensive dataset for cross-app mobile GUI navigation. GUIOdyssey comprises 8,334 episodes with an average of 15.3 steps per episode, covering 6 mobile devices, 212 distinct apps, and 1,357 app combinations. Each step is enriched with detailed semantic reasoning annotations, which aid the model in building cognitive processes and enhancing its reasoning abilities for complex cross-app tasks. Building on GUIOdyssey, we develop OdysseyAgent, an exploratory multimodal agent for long-step cross-app navigation equipped with a history resampler module that efficiently attends to historical screenshot tokens, balancing performance and inference speed. Extensive experiments conducted in both in-domain and out-of-domain scenarios validate the effectiveness of our approach. Moreover, we demonstrate that historial information involving actions, screenshots and context in our dataset can significantly enhances OdysseyAgent's performance on complex cross-app tasks.