Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

📄 arXiv: 2604.13488v1 📥 PDF

作者: Ziwei Wang, Junjie Zheng, Leyang Yang, Sheng Zhou, Xiaoxuan Tang, Zhouhua Fang, Zhiwei Liu, Dajun Chen, Yong Li, Jiajun Bu

分类: cs.AI

发布日期: 2026-04-15

备注: Findings of ACL 2026


💡 一句话要点

LAMO:面向轻量级GUI代理的多角色协同框架,提升任务可扩展性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 多模态大语言模型 多智能体系统 角色扮演 强化学习 知识蒸馏 轻量级模型

📋 核心要点

  1. 现有GUI代理方法参数量大,部署成本高,轻量级模型在复杂场景下能力有限,难以扩展到多智能体系统。
  2. LAMO框架通过角色导向的数据合成和两阶段训练,赋予轻量级MLLM GUI知识和任务可扩展性,支持多角色协同。
  3. LAMO-3B作为LAMO框架的实现,可与先进规划器结合,实验验证了其在GUI自动化任务中的有效性。

📝 摘要(中文)

本文提出LAMO框架,旨在解决轻量级多模态大语言模型(MLLM)在资源受限设备上进行GUI自动化时,面临的部署成本高、任务可扩展性差等问题。LAMO框架赋予轻量级MLLM特定的GUI知识和任务可扩展性,通过多角色协同扩展其GUI自动化能力边界。该框架结合了面向角色的数据合成和两阶段训练方案:(i) 使用困惑度加权交叉熵优化的监督微调,用于知识蒸馏和视觉感知增强;(ii) 强化学习,用于面向角色的协同探索。基于LAMO,开发了任务可扩展的本地GUI代理LAMO-3B,支持单体执行和MAS风格的协同。LAMO-3B可以与先进的规划器结合,作为即插即用的策略执行器,持续受益于规划器的进步,从而实现更高的性能上限。大量的静态和在线评估验证了该设计的有效性。

🔬 方法详解

问题定义:现有基于多模态大语言模型的GUI代理,虽然通过增大参数和数据量获得了显著提升,但在资源受限的设备上部署成本过高。对于轻量级GUI代理,端到端学习方式限制了其能力,难以适应复杂场景和多智能体系统,而训练多个特定技能的专家模型成本又太高。因此,需要找到成本和可扩展性之间的有效平衡,使轻量级MLLM能够参与到真实的GUI工作流程中。

核心思路:LAMO框架的核心思路是赋予轻量级MLLM特定的GUI知识和任务可扩展性,使其能够通过多角色协同来扩展其能力边界。通过角色导向的数据合成,使模型能够学习不同角色的行为模式,并通过两阶段训练,提升模型的视觉感知能力和协同探索能力。

技术框架:LAMO框架包含两个主要阶段:(1) 监督微调阶段:使用角色导向的数据集对轻量级MLLM进行微调,利用困惑度加权交叉熵损失函数进行优化,提升模型的知识蒸馏效果和视觉感知能力。(2) 强化学习阶段:使用强化学习方法,训练模型在不同角色下进行协同探索,学习最优的协作策略。LAMO-3B是基于LAMO框架开发的GUI代理,可以作为单体执行器或与规划器结合,实现多智能体协同。

关键创新:LAMO框架的关键创新在于其多角色协同机制和两阶段训练方法。多角色协同机制允许轻量级MLLM通过扮演不同的角色来完成复杂的GUI自动化任务,而两阶段训练方法则有效地提升了模型的视觉感知能力和协同探索能力。与现有方法相比,LAMO框架能够在保证性能的同时,显著降低模型的部署成本。

关键设计:在监督微调阶段,使用了困惑度加权交叉熵损失函数,该函数可以根据数据的难易程度调整权重,从而提升模型的学习效率。在强化学习阶段,使用了面向角色的奖励函数,鼓励模型在特定角色下进行有效的探索。LAMO-3B使用了3B参数的MLLM,并针对GUI自动化任务进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAMO-3B在GUI自动化任务中表现出色,能够与先进的规划器协同工作,实现更高的性能上限。与现有方法相比,LAMO-3B在保证性能的同时,显著降低了模型的参数量和部署成本。具体性能数据未知,但论文强调了其有效性。

🎯 应用场景

LAMO框架具有广泛的应用前景,可用于开发各种自动化GUI代理,例如自动化测试工具、智能助手、RPA(机器人流程自动化)系统等。该框架能够降低GUI自动化的成本,提高效率,并使轻量级设备也能参与到复杂的自动化流程中。未来,LAMO框架可以进一步扩展到其他领域,例如移动应用自动化、网页自动化等。

📄 摘要(原文)

Autonomous Graphical User Interface (GUI) agents powered by Multimodal Large Language Models (MLLMs) enable digital automation on end-user devices. While scaling both parameters and data has yielded substantial gains, advanced methods still suffer from prohibitive deployment costs on resource-constrained devices. When facing complex in-the-wild scenarios, lightweight GUI agents are bottlenecked by limited capacity and poor task scalability under end-to-end episodic learning, impeding adaptation to multi-agent systems (MAS), while training multiple skill-specific experts remains costly. Can we strike an effective trade-off in this cost-scalability dilemma, enabling lightweight MLLMs to participate in realistic GUI workflows? To address these challenges, we propose the LAMO framework, which endows a lightweight MLLM with GUI-specific knowledge and task scalability, allowing multi-role orchestration to expand its capability boundary for GUI automation. LAMO combines role-oriented data synthesis with a two-stage training recipe: (i) supervised fine-tuning with Perplexity-Weighted Cross-Entropy optimization for knowledge distillation and visual perception enhancement, and (ii) reinforcement learning for role-oriented cooperative exploration. With LAMO, we develop a task-scalable native GUI agent, LAMO-3B, supporting monolithic execution and MAS-style orchestration. When paired with advanced planners as a plug-and-play policy executor, LAMO-3B can continuously benefit from planner advances, enabling a higher performance ceiling. Extensive static and online evaluations validate the effectiveness of our design.