CogAgent: A Visual Language Model for GUI Agents

📄 arXiv: 2312.08914v3 📥 PDF

作者: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxuan Zhang, Juanzi Li, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang

分类: cs.CV

发布日期: 2023-12-14 (更新: 2024-12-27)

备注: CVPR 2024 (Highlight), 27 pages, 19 figures

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

CogAgent:面向GUI代理的视觉语言模型,提升GUI理解与导航能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 GUI代理 GUI理解 GUI导航 高分辨率图像编码 多模态学习 人机交互

📋 核心要点

  1. 现有大型语言模型(LLM)难以理解和交互图形用户界面(GUI),限制了自动化水平的提升。
  2. CogAgent利用高分辨率图像编码器,提升了对GUI元素和文本的识别能力,从而更好地理解GUI。
  3. CogAgent在多个VQA和GUI导航任务上取得了SOTA结果,证明了其在GUI理解和导航方面的有效性。

📝 摘要(中文)

本文提出了CogAgent,一个拥有180亿参数的视觉语言模型(VLM),专注于图形用户界面(GUI)的理解和导航。CogAgent利用低分辨率和高分辨率图像编码器,支持1120*1120分辨率的输入,从而能够识别微小的页面元素和文本。作为一个通用的视觉语言模型,CogAgent在五个富文本和四个通用VQA基准测试中达到了最先进的水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent仅使用屏幕截图作为输入,在PC和Android GUI导航任务(Mind2Web和AITW)上优于使用提取的HTML文本的基于LLM的方法,从而推进了最先进的技术水平。模型和代码可在https://github.com/THUDM/CogVLM 获得,新版本的CogAgent-9B-20241220可在https://github.com/THUDM/CogAgent 获得。

🔬 方法详解

问题定义:现有方法,特别是基于LLM的方法,在处理GUI任务时,通常依赖于提取的HTML文本,这可能丢失重要的视觉信息,并且难以处理复杂的GUI布局。此外,现有模型在识别GUI中的微小元素和文本方面存在局限性,影响了其在实际应用中的性能。

核心思路:CogAgent的核心思路是构建一个能够直接从GUI屏幕截图进行理解和导航的视觉语言模型。通过结合低分辨率和高分辨率图像编码器,CogAgent能够有效地处理GUI中的全局上下文和局部细节,从而提高对GUI的理解能力。

技术框架:CogAgent采用了一种多模态架构,包括图像编码器和语言模型。图像编码器负责将GUI屏幕截图转换为视觉特征表示,语言模型则负责根据视觉特征和文本指令生成相应的操作序列。该框架支持高分辨率输入,能够识别GUI中的微小元素和文本。

关键创新:CogAgent的关键创新在于其高分辨率图像编码器,该编码器能够处理1120*1120分辨率的输入,从而能够识别GUI中的微小元素和文本。此外,CogAgent还采用了专门为GUI理解和导航任务设计的训练策略,从而提高了模型的性能。

关键设计:CogAgent使用了180亿参数的视觉语言模型。图像编码器部分,采用了低分辨率和高分辨率相结合的设计,以兼顾全局信息和局部细节。损失函数方面,采用了标准的语言模型损失函数,并针对GUI导航任务进行了优化。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。

📊 实验亮点

CogAgent在Mind2Web和AITW等GUI导航任务上超越了使用提取的HTML文本的LLM方法,取得了SOTA结果。同时,在VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE等多个VQA基准测试中也达到了最先进的水平,证明了其作为通用视觉语言模型的强大能力。

🎯 应用场景

CogAgent在自动化GUI交互方面具有广泛的应用前景,例如自动化软件测试、智能助手、RPA(机器人流程自动化)等。它可以帮助用户更高效地完成各种GUI任务,提高工作效率,并降低人工操作的错误率。未来,CogAgent有望成为各种智能设备和应用的重要组成部分。

📄 摘要(原文)

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM, with a new version of CogAgent-9B-20241220 available at https://github.com/THUDM/CogAgent.