MobileFlow: A Multimodal LLM For Mobile GUI Agent

📄 arXiv: 2407.04346v3 📥 PDF

作者: Songqin Nong, Jiali Zhu, Rui Wu, Jiongchao Jin, Shuo Shan, Xiutian Huang, Wenhao Xu

分类: cs.CV

发布日期: 2024-07-05 (更新: 2024-12-06)


💡 一句话要点

MobileFlow:面向移动GUI代理的多模态大语言模型,提升中文GUI理解与交互能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 移动GUI代理 中文GUI理解 混合视觉编码器 混合专家模型 对齐训练 可变分辨率输入

📋 核心要点

  1. 现有GUI代理依赖系统API访问页面布局信息,存在隐私风险,且固定低分辨率输入导致图像细节丢失。
  2. MobileFlow采用混合视觉编码器,支持变分辨率输入,并针对中文GUI进行优化,提升理解和决策能力。
  3. 实验表明,MobileFlow在GUI任务执行上优于Qwen-VL-Max和GPT-4v,并在实际业务中成功部署。

📝 摘要(中文)

本文提出MobileFlow,一个专为移动GUI代理精心设计的多模态大语言模型。MobileFlow基于开源模型Qwen-VL-Chat,包含约210亿参数,并配备了新型混合视觉编码器,支持可变分辨率的图像输入和良好的多语言GUI支持。通过结合混合专家(MoE)扩展和开创性的对齐训练策略,MobileFlow能够充分解释图像数据并理解用户指令,从而完成GUI交互任务。在公共和作者提出的评估指标上,MobileFlow在GUI代理的任务执行方面优于Qwen-VL-Max和GPT-4v,并已成功部署在实际业务环境中,证明了其在实际应用中的有效性。

🔬 方法详解

问题定义:现有GUI代理在移动设备上的应用面临两个主要问题:一是依赖系统API获取GUI信息,存在潜在的隐私泄露风险;二是将GUI图像固定到低分辨率,导致图像细节丢失,影响模型对细粒度信息的理解。此外,现有模型对中文GUI的理解和决策能力不足,难以应用于大量中文App。

核心思路:MobileFlow的核心思路是构建一个能够直接从GUI图像中提取信息,并具备强大的中文GUI理解和交互能力的多模态大语言模型。通过优化视觉编码器和训练策略,使模型能够处理变分辨率的输入,并更好地理解中文GUI的语义信息。

技术框架:MobileFlow基于Qwen-VL-Chat进行构建,整体架构包含视觉编码器、语言模型和对齐模块。视觉编码器负责将GUI图像转换为视觉特征,语言模型负责理解用户指令并生成相应的操作指令,对齐模块负责将视觉特征和语言特征对齐,使模型能够更好地理解图像和文本之间的关系。模型还采用了混合专家(MoE)结构,以提升模型的容量和性能。

关键创新:MobileFlow的关键创新在于:1) 提出了新型混合视觉编码器,支持可变分辨率的图像输入,能够保留更多的图像细节;2) 针对中文GUI进行了优化,提升了模型对中文GUI的理解和决策能力;3) 采用了开创性的对齐训练策略,使模型能够更好地理解图像和文本之间的关系。

关键设计:MobileFlow的视觉编码器采用了混合结构,包含卷积神经网络(CNN)和Transformer。CNN负责提取图像的局部特征,Transformer负责捕捉图像的全局关系。模型采用了对比学习损失函数,以促进视觉特征和语言特征的对齐。在训练过程中,作者使用了大量中文GUI数据进行微调,以提升模型对中文GUI的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MobileFlow在公共数据集和作者提出的评估指标上,在GUI代理的任务执行方面均优于Qwen-VL-Max和GPT-4v。具体而言,MobileFlow在任务成功率、操作效率等方面均取得了显著提升。此外,MobileFlow已成功部署在实际业务环境中,证明了其在实际应用中的有效性。这些实验结果表明,MobileFlow在移动GUI理解和交互方面具有显著优势。

🎯 应用场景

MobileFlow可应用于智能手机助手、自动化测试、辅助功能等领域。它可以帮助用户更高效地使用移动应用,例如自动完成复杂的操作流程、提供个性化的推荐等。在自动化测试中,MobileFlow可以模拟用户操作,自动检测应用中的bug。对于残障人士,MobileFlow可以提供语音控制、手势控制等辅助功能,帮助他们更好地使用移动设备。

📄 摘要(原文)

Currently, the integration of mobile Graphical User Interfaces (GUIs) is ubiquitous in most people's daily lives. And the ongoing evolution of multimodal large-scale models, such as GPT-4v, Qwen-VL-Max, has significantly bolstered the capabilities of GUI comprehension and user action analysis, showcasing the potentiality of intelligent GUI assistants. However, current GUI Agents often need to access page layout information through calling system APIs, which may pose privacy risks. Fixing GUI (such as mobile interfaces) to a certain low resolution might result in the loss of fine-grained image details. At the same time, the multimodal large models built for GUI Agents currently have poor understanding and decision-making abilities for Chinese GUI interfaces, making them difficult to apply to a large number of Chinese apps. This paper introduces MobileFlow, a multimodal large language model meticulously crafted for mobile GUI agents. Transforming from the open-source model Qwen-VL-Chat into GUI domain, MobileFlow contains approximately 21 billion parameters and is equipped with novel hybrid visual encoders, making it possible for variable resolutions of image inputs and good support for multilingual GUI. By incorporating Mixture of Experts (MoE) expansions and pioneering alignment training strategies, MobileFlow has the capacity to fully interpret image data and comprehend user instructions for GUI interaction tasks. Finally, MobileFlow outperforms Qwen-VL-Max and GPT-4v in terms of task execution by GUI agents on both public and our proposed evaluation metrics, and has been successfully deployed in real-world business contexts, proving its effectiveness for practical applications.