A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction
作者: Michito Takeshita, Takuro Kawada, Takumi Ohashi, Shunsuke Kitada, Hitoshi Iyatomi
分类: cs.CL, cs.AI
发布日期: 2026-05-01
备注: 18 pages, 5 figures, 5 tables. Accepted to ACL SRW 2026. Project page: https://iyatomilab.github.io/a11y-compressor/
💡 一句话要点
提出A11y-Compressor框架,通过视觉上下文重建和冗余减少提升GUI Agent观测效率。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: GUI Agent 可访问性树 视觉上下文 冗余减少 语义结构化
📋 核心要点
- 现有GUI Agent依赖的可访问性树存在冗余,且缺乏空间结构信息,限制了Agent的理解和交互能力。
- A11y-Compressor框架通过视觉上下文重建和冗余减少,将线性化的可访问性树转换为紧凑且结构化的表示。
- 实验结果表明,Compressed-a11y显著减少了输入token数量,并提高了Agent在OSWorld基准测试中的任务成功率。
📝 摘要(中文)
本文提出A11y-Compressor框架,旨在提升与图形用户界面(GUI)交互的AI Agent的观测效率,从而实现更可靠的交互。现有的可访问性树(accessibility tree)是一种常用的基于文本的格式,用于编码UI元素属性,但存在冗余且缺乏空间关系等结构信息。A11y-Compressor将线性化的可访问性树转换为紧凑且结构化的表示。具体实现Compressed-a11y采用轻量级且结构化的转换流程,包括模态检测、冗余减少和语义结构化。在OSWorld基准测试上的实验表明,Compressed-a11y将输入token减少到原始的22%,同时平均任务成功率提高了5.1个百分点。
🔬 方法详解
问题定义:现有的GUI Agent通常使用可访问性树作为输入,该树以文本形式描述UI元素的属性。然而,可访问性树存在大量冗余信息,例如重复的属性值和不相关的元素。此外,它缺乏UI元素的空间关系信息,这对于Agent理解GUI的布局和结构至关重要。这些问题导致Agent的观测效率低下,影响其交互性能。
核心思路:A11y-Compressor的核心思路是通过一系列转换步骤,将原始的可访问性树压缩成更紧凑、更结构化的表示。该框架利用视觉上下文信息来重建UI元素的空间关系,并采用冗余减少技术来消除不必要的信息。最终,框架将处理后的信息进行语义结构化,以便Agent更好地理解GUI的含义。
技术框架:A11y-Compressor框架包含以下主要模块:1) 模态检测:识别GUI中的模态窗口,例如对话框和弹出窗口。2) 冗余减少:消除可访问性树中的冗余信息,例如重复的属性值和不相关的元素。3) 语义结构化:将处理后的信息组织成更结构化的形式,例如树状结构或图结构。Compressed-a11y是A11y-Compressor的一个具体实现,它采用轻量级且结构化的转换流程来实现这些模块。
关键创新:A11y-Compressor的关键创新在于它结合了视觉上下文重建和冗余减少技术,以提升GUI Agent的观测效率。与传统的基于文本的压缩方法不同,A11y-Compressor利用视觉信息来推断UI元素的空间关系,从而更好地理解GUI的结构。此外,它采用语义结构化技术,将处理后的信息组织成更易于Agent理解的形式。
关键设计:Compressed-a11y的具体实现细节包括:使用启发式规则进行模态检测;使用基于属性值的相似度度量进行冗余减少;使用树状结构来表示UI元素的层次关系。具体的参数设置和算法选择可能需要根据具体的GUI环境进行调整。损失函数的设计未提及,网络结构也未涉及,推测该方法主要集中在预处理层面。
🖼️ 关键图片
📊 实验亮点
在OSWorld基准测试中,Compressed-a11y将输入token减少到原始的22%,这意味着Agent需要处理的信息量显著减少。同时,任务成功率平均提高了5.1个百分点,表明Agent的交互性能得到了显著提升。这些结果表明,A11y-Compressor框架能够有效地提升GUI Agent的观测效率和交互性能。
🎯 应用场景
A11y-Compressor框架可应用于各种需要与GUI交互的AI Agent,例如自动化测试工具、机器人流程自动化(RPA)系统和辅助技术。通过提升Agent的观测效率,该框架可以提高这些系统的性能和可靠性,并降低开发和维护成本。未来,该框架可以进一步扩展到支持更复杂的GUI环境和交互任务。
📄 摘要(原文)
AI agents that interact with graphical user interfaces (GUIs) require effective observation representations for reliable grounding. The accessibility tree is a commonly used text-based format that encodes UI element attributes, but it suffers from redundancy and lacks structural information such as spatial relationships among elements. We propose A11y-Compressor, a framework that transforms linearized accessibility trees into compact and structured representations. Our implementation, Compressed-a11y, applies a lightweight and structured transformation pipeline with modal detection, redundancy reduction, and semantic structuring. Experiments on the OSWorld benchmark show that Compressed-a11y reduces input tokens to 22% of the original while improving task success rates by 5.1 percentage points on average.