Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
作者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-09-30
💡 一句话要点
提出Ferret-UI Lite,一个紧凑型端到端GUI智能体,用于跨平台交互。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GUI智能体 端侧模型 视觉语言模型 思维链推理 强化学习 人机交互 GUI导航
📋 核心要点
- 现有GUI智能体,特别是小型端侧模型,在有效交互方面面临挑战。
- Ferret-UI Lite通过数据混合、思维链推理、视觉工具使用和强化学习构建紧凑模型。
- Ferret-UI Lite在GUI grounding和导航任务上取得了与同等规模模型具有竞争力的结果。
📝 摘要(中文)
本文介绍Ferret-UI Lite,一个紧凑的端到端GUI智能体,可在移动、Web和桌面等多种平台上运行。该智能体利用针对小型模型优化的技术构建,通过整合来自真实和合成来源的多样化GUI数据混合进行训练,并通过思维链推理和视觉工具使用来增强推理时的性能,并使用设计的奖励进行强化学习。Ferret-UI Lite在GUI grounding方面取得了与其他小型GUI智能体相当的性能,在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G基准测试中分别获得了91.6%、53.3%和61.2%的分数。在GUI导航方面,Ferret-UI Lite在AndroidWorld和OSWorld上的成功率分别为28.0%和19.8%。我们分享了开发紧凑型、端到端GUI智能体的方法和经验。
🔬 方法详解
问题定义:论文旨在解决在资源受限的设备上构建能够有效与图形用户界面(GUI)交互的智能体的问题。现有方法通常计算量大,难以部署在端侧设备上,并且在处理多样化的GUI环境时泛化能力不足。
核心思路:Ferret-UI Lite的核心思路是构建一个紧凑且高效的端到端模型,通过精心设计的数据混合、推理策略和强化学习方法,使其能够在各种GUI平台上实现良好的性能。通过优化模型大小,降低计算复杂度,使其能够在端侧设备上运行。
技术框架:Ferret-UI Lite的整体框架包括以下几个主要阶段:1) 数据收集与混合:收集真实和合成的GUI数据,构建多样化的训练数据集。2) 模型训练:使用混合数据集训练一个3B参数的视觉语言模型。3) 推理增强:采用思维链推理和视觉工具使用来提高推理性能。4) 强化学习:使用设计的奖励函数对模型进行强化学习,进一步优化其交互策略。
关键创新:Ferret-UI Lite的关键创新在于其针对小型模型的设计和优化策略。具体包括:1) 数据混合策略,有效利用真实和合成数据。2) 思维链推理和视觉工具使用,提高推理的准确性和效率。3) 强化学习奖励函数的设计,引导模型学习更有效的交互策略。
关键设计:在数据混合方面,论文探索了不同数据源的比例对模型性能的影响。在思维链推理方面,模型被训练生成一系列中间步骤,以帮助其更好地理解GUI的结构和任务目标。在强化学习方面,奖励函数的设计考虑了任务完成的效率和准确性。
🖼️ 关键图片
📊 实验亮点
Ferret-UI Lite在GUI grounding任务中,于ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G基准测试上分别取得了91.6%、53.3%和61.2%的成绩。在GUI导航任务中,于AndroidWorld和OSWorld上分别取得了28.0%和19.8%的成功率。这些结果表明,Ferret-UI Lite在小型GUI智能体中具有竞争力。
🎯 应用场景
Ferret-UI Lite具有广泛的应用前景,包括移动设备自动化、Web应用测试、桌面软件辅助等。它可以帮助用户自动完成重复性任务,提高工作效率,并为残障人士提供更便捷的GUI交互方式。未来,该技术有望应用于智能家居、自动驾驶等领域,实现更智能的人机交互。
📄 摘要(原文)
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of $91.6\%$, $53.3\%$, and $61.2\%$ on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of $28.0\%$ on AndroidWorld and $19.8\%$ on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.