SecAgent: Efficient Mobile GUI Agent with Semantic Context
作者: Yiping Xie, Song Chen, Jingxuan Xing, Wei Jiang, Zekun Zhu, Yingyao Wang, Pi Bu, Jun Song, Yuning Jiang, Bo Zheng
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
SecAgent:基于语义上下文的高效移动GUI智能体
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动GUI自动化 语义上下文 多语言模型 中文数据集 智能体
📋 核心要点
- 现有移动GUI智能体面临高质量多语言数据集稀缺,尤其在非英语环境下,限制了其应用。
- SecAgent通过语义上下文机制,将历史信息提炼为自然语言摘要,降低计算成本并保留关键信息。
- 实验表明,SecAgent性能优于同规模基线,并可媲美更大规模模型,推动多语言GUI自动化研究。
📝 摘要(中文)
本文提出了一种名为SecAgent的高效移动GUI智能体,其模型规模为30亿参数。现有方法在自动化复杂智能手机任务时面临两个主要挑战:高质量多语言数据集的匮乏,尤其是在非英语生态系统中;以及低效的历史信息表示方法。为了解决这些问题,我们构建了一个包含1.8万个grounding样本和12.1万个导航步骤的中文移动GUI数据集,涵盖44个应用程序,并提供了一个包含多项选择动作标注的中文导航基准。在此基础上,我们提出了一种语义上下文机制,将历史截图和动作提炼成简洁的自然语言摘要,从而在保留任务相关信息的同时,显著降低计算成本。通过监督和强化微调,SecAgent在我们的基准和公共导航基准上,性能优于同等规模的基线模型,并达到与70亿-80亿参数模型相当的水平。我们将开源训练数据集、基准、模型和代码,以促进多语言移动GUI自动化领域的研究。
🔬 方法详解
问题定义:现有基于多模态大语言模型的移动GUI智能体在自动化智能手机任务时,面临高质量多语言数据集不足的问题,尤其是在中文等非英语环境下。此外,现有方法在处理历史信息时效率较低,导致计算成本高昂。
核心思路:SecAgent的核心思路是通过语义上下文机制,将历史截图和动作序列提炼成简洁的自然语言摘要。这种方法旨在保留任务相关的关键信息,同时显著减少需要处理的数据量,从而降低计算成本并提高效率。
技术框架:SecAgent的整体框架包括数据收集与标注、模型构建与训练、以及评估与测试三个主要阶段。首先,构建大规模中文移动GUI数据集,并进行人工验证和标注。然后,基于该数据集,训练一个30亿参数的语言模型,并结合语义上下文机制进行微调。最后,在自建基准和公共基准上评估模型的性能。
关键创新:SecAgent的关键创新在于其语义上下文机制。与直接使用原始截图和动作序列作为输入不同,该机制将这些信息提炼成自然语言摘要,从而减少了输入数据的冗余,并使模型能够更有效地利用历史信息。
关键设计:语义上下文机制的关键设计在于如何有效地将历史信息提炼成自然语言摘要。具体而言,可以使用预训练的语言模型来生成摘要,并结合人工标注数据进行微调,以确保摘要的准确性和相关性。此外,还可以探索不同的摘要生成策略,例如基于规则的方法或基于神经网络的方法,以进一步提高摘要的质量。
🖼️ 关键图片
📊 实验亮点
SecAgent在自建的中文导航基准和公共导航基准上均取得了显著的性能提升。实验结果表明,SecAgent的性能优于同等规模的基线模型,并且能够达到与70亿-80亿参数模型相当的水平。这证明了语义上下文机制的有效性,以及SecAgent在多语言移动GUI自动化方面的潜力。
🎯 应用场景
SecAgent的研究成果可应用于自动化移动应用测试、智能助手、以及辅助残障人士使用智能手机等领域。通过提高移动GUI智能体的效率和多语言支持能力,可以显著提升用户体验,并为移动应用开发和维护带来便利。未来,该技术有望进一步扩展到其他类型的GUI界面,例如桌面应用和网页应用。
📄 摘要(原文)
Mobile Graphical User Interface (GUI) agents powered by multimodal large language models have demonstrated promising capabilities in automating complex smartphone tasks. However, existing approaches face two critical limitations: the scarcity of high-quality multilingual datasets, particularly for non-English ecosystems, and inefficient history representation methods. To address these challenges, we present SecAgent, an efficient mobile GUI agent at 3B scale. We first construct a human-verified Chinese mobile GUI dataset with 18k grounding samples and 121k navigation steps across 44 applications, along with a Chinese navigation benchmark featuring multi-choice action annotations. Building upon this dataset, we propose a semantic context mechanism that distills history screenshots and actions into concise, natural language summaries, significantly reducing computational costs while preserving task-relevant information. Through supervised and reinforcement fine-tuning, SecAgent outperforms similar-scale baselines and achieves performance comparable to 7B-8B models on our and public navigation benchmarks. We will open-source the training dataset, benchmark, model, and code to advance research in multilingual mobile GUI automation.