OS-SPEAR: A Toolkit for the Safety, Performance,Efficiency, and Robustness Analysis of OS Agents
作者: Zheng Wu, Yi Hua, Zhaoyuan Huang, Chenhao Xue, Yijie Lu, Pengzhou Cheng, Zongru Wu, Lingzhong Dong, Gongshen Liu, Xinghao Jiang, Zhuosheng Zhang
分类: cs.CL
发布日期: 2026-04-27
🔗 代码/项目: GITHUB
💡 一句话要点
OS-SPEAR:用于操作系统代理安全性、性能、效率和鲁棒性分析的工具包
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 操作系统代理 多模态学习 安全性评估 鲁棒性分析 性能评估
📋 核心要点
- 现有操作系统代理缺乏在安全性、效率和多模态鲁棒性方面的严格评估,阻碍了其广泛应用。
- OS-SPEAR工具包通过构建安全性、性能、效率和鲁棒性四个维度的子集,系统分析操作系统代理。
- 实验结果揭示了效率与安全/鲁棒性之间的权衡,专用代理的性能优势,以及不同模态的鲁棒性差异。
📝 摘要(中文)
多模态大型语言模型(MLLM)的发展已将重点从文本生成转移到主动行为执行,特别是通过操作系统代理在复杂的GUI中导航。然而,由于缺乏对安全性、效率和多模态鲁棒性的严格评估,这些代理转变为值得信赖的日常伙伴的过程受到阻碍。目前的基准测试存在安全场景狭窄、轨迹标记嘈杂和鲁棒性指标有限等问题。为了弥合这一差距,我们提出了OS-SPEAR,这是一个全面的工具包,用于系统地分析操作系统代理的四个维度:安全性、性能、效率和鲁棒性。OS-SPEAR引入了四个专门的子集:(1)包含各种环境和人为诱发危害的S(afety)-子集;(2)通过轨迹值估计和分层抽样策划的P(erformance)-子集;(3)通过时间延迟和令牌消耗的双重视角量化性能的E(fficiency)-子集;(4)将跨模态干扰应用于视觉和文本输入的R(obustness)-子集。此外,我们提供了一个自动分析工具来生成人类可读的诊断报告。我们使用OS-SPEAR对22个流行的操作系统代理进行了广泛的评估。我们的经验结果揭示了当前格局的关键见解:值得注意的是,效率与安全性或鲁棒性之间普遍存在的权衡,专用代理优于通用模型的性能优势,以及不同模态之间不同的鲁棒性漏洞。通过提供多维排名和标准化评估框架,OS-SPEAR为开发下一代可靠和高效的操作系统代理提供了基础资源。数据集和代码可在https://github.com/Wuzheng02/OS-SPEAR获取。
🔬 方法详解
问题定义:论文旨在解决当前操作系统代理评估体系中存在的不足,具体表现为缺乏对安全性、效率和多模态鲁棒性的全面、系统性评估。现有方法在安全场景覆盖、轨迹标注质量以及鲁棒性指标等方面存在局限性,难以有效衡量代理的可靠性和实用性。
核心思路:论文的核心思路是构建一个多维度的评估框架,即OS-SPEAR工具包,从安全性、性能、效率和鲁棒性四个关键维度对操作系统代理进行综合分析。通过设计专门的测试用例和评估指标,量化代理在不同场景下的表现,从而发现潜在问题并指导改进。
技术框架:OS-SPEAR工具包包含四个主要模块,分别对应安全性(S-subset)、性能(P-subset)、效率(E-subset)和鲁棒性(R-subset)四个维度。S-subset包含各种环境和人为诱发的危险场景;P-subset通过轨迹价值估计和分层抽样来评估代理的性能;E-subset通过时间延迟和token消耗来量化代理的效率;R-subset通过对视觉和文本输入施加跨模态干扰来评估代理的鲁棒性。此外,该工具包还包含一个自动分析工具,用于生成人类可读的诊断报告。
关键创新:OS-SPEAR的关键创新在于其多维度的评估框架,能够全面、系统地分析操作系统代理的各项关键指标。与现有方法相比,OS-SPEAR不仅关注代理的性能,还关注其安全性、效率和鲁棒性,从而更全面地评估代理的实用价值。此外,OS-SPEAR还提供了自动化的分析工具,方便用户进行评估和诊断。
关键设计:OS-SPEAR的关键设计包括:针对不同维度设计的专门测试用例,例如S-subset中包含的各种危险场景;用于评估性能的轨迹价值估计方法;用于量化效率的时间延迟和token消耗指标;以及用于评估鲁棒性的跨模态干扰方法。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,可能需要参考相关代码实现。
🖼️ 关键图片
📊 实验亮点
通过OS-SPEAR对22个流行的操作系统代理进行评估,结果表明效率与安全/鲁棒性之间存在权衡。专用代理在性能上优于通用模型,并且不同模态的鲁棒性存在差异。这些发现为开发更可靠和高效的操作系统代理提供了重要指导。
🎯 应用场景
OS-SPEAR工具包可用于评估和改进各种操作系统代理,例如自动化办公助手、智能家居控制系统等。通过该工具包,开发者可以系统地发现代理在安全性、性能、效率和鲁棒性方面的问题,并进行针对性的优化,从而提高代理的可靠性和实用性,促进其在实际场景中的应用。
📄 摘要(原文)
The evolution of Multimodal Large Language Models (MLLMs) has shifted the focus from text generation to active behavioral execution, particularly via OS agents navigating complex GUIs. However, the transition of these agents into trustworthy daily partners is hindered by a lack of rigorous evaluation regarding safety, efficiency, and multi-modal robustness. Current benchmarks suffer from narrow safety scenarios, noisy trajectory labeling, and limited robustness metrics. To bridge this gap, we propose OS-SPEAR, a comprehensive toolkit for the systematic analysis of OS agents across four dimensions: Safety, Performance, Efficiency, and Robustness. OS-SPEAR introduces four specialized subsets: (1) a S(afety)-subset encompassing diverse environment- and human-induced hazards; (2) a P(erformance)-subset curated via trajectory value estimation and stratified sampling; (3) an E(fficiency)-subset quantifying performance through the dual lenses of temporal latency and token consumption; and (4) a R(obustness)-subset that applies cross-modal disturbances to both visual and textual inputs. Additionally, we provide an automated analysis tool to generate human-readable diagnostic reports. We conduct an extensive evaluation of 22 popular OS agents using OS-SPEAR. Our empirical results reveal critical insights into the current landscape: notably, a prevalent trade-off between efficiency and safety or robustness, the performance superiority of specialized agents over general-purpose models, and varying robustness vulnerabilities across different modalities. By providing a multidimensional ranking and a standardized evaluation framework, OS-SPEAR offers a foundational resource for developing the next generation of reliable and efficient OS agents. The dataset and codes are available at https://github.com/Wuzheng02/OS-SPEAR.