SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

📄 arXiv: 2605.15777v1 📥 PDF

作者: Kean Shi, Zihang Li, Tianyi Ma, Zengji Tu, Jialong Wu, Xinbo Xu, Qingyao Yang, Ruoyu Wu, Weichu Xie, Ming Wu, Jason Zeng, Michael Heinrich, Elvis Zhang, Liang Chen, Kuan Li, Baobao Chang

分类: cs.AI

发布日期: 2026-05-15

备注: 22 pages, 11 figures

🔗 代码/项目: GITHUB


💡 一句话要点

SaaS-Bench:评估计算机使用Agent在真实SaaS环境中解决专业工作流的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机使用Agent SaaS基准测试 大型语言模型 自动化办公 多模态任务

📋 核心要点

  1. 现有Web和GUI Agent基准测试过于简化,难以评估Agent在真实专业工作流中的能力。
  2. SaaS-Bench基准测试基于真实SaaS环境,包含复杂、长期的专业工作流任务。
  3. 实验表明,现有LLM-based Agent在SaaS-Bench上表现不佳,暴露了其在复杂任务中的局限性。

📝 摘要(中文)

计算机使用Agent(CUAs)正迅速将大型语言模型(LLMs)从基于文本的推理扩展到更复杂环境(如Web浏览器和图形用户界面(GUI))中的动作执行。然而,现有的Web和GUI Agent基准测试通常依赖于简化的设置、孤立的任务或短期的交互,难以评估Agent在真实专业工作流中的能力。软件即服务(SaaS)环境是CUA评估的自然选择,因为它们承载了现代数字工作的大部分,并且自然地涉及动态系统状态、跨应用程序协调、领域特定知识和长期依赖关系。为此,我们推出了SaaS-Bench,这是一个基于六个专业领域的23个可部署SaaS系统构建的基准测试,包含106个基于真实工作场景的任务。这些任务需要长期执行,涵盖纯文本和多模态设置,并使用加权验证检查点进行评估,以衡量严格的任务完成度和部分进度。实验表明,具有代表性的基于LLM的Agent在SaaS-Bench上表现不佳,即使是最强大的模型也只能完成不到4%的端到端任务,暴露了在规划、状态跟踪、跨应用程序上下文维护和错误恢复方面的局限性。代码可在https://github.com/UniPat-AI/SaaS-Bench上获取。

🔬 方法详解

问题定义:论文旨在评估计算机使用Agent(CUAs)在真实软件即服务(SaaS)环境中解决专业工作流程的能力。现有Web和GUI Agent基准测试的痛点在于它们过于简化,无法真实反映实际工作场景的复杂性,例如动态系统状态、跨应用协调和长期依赖等。

核心思路:论文的核心思路是构建一个更贴近真实工作场景的SaaS基准测试环境,以此来更全面地评估CUAs的能力。通过选择常用的SaaS应用,并设计基于真实工作流程的任务,可以更好地考察Agent在长期规划、状态跟踪、跨应用上下文维护和错误恢复等方面的能力。

技术框架:SaaS-Bench基准测试包含以下主要组成部分:1) 23个可部署的SaaS系统,涵盖六个专业领域;2) 106个基于真实工作场景的任务,需要长期执行;3) 涵盖纯文本和多模态设置;4) 使用加权验证检查点进行评估,以衡量任务完成度和部分进度。整体流程是Agent与SaaS环境交互,执行任务,然后通过加权验证检查点来评估Agent的性能。

关键创新:SaaS-Bench的关键创新在于其真实性和复杂性。与现有的简化基准测试相比,SaaS-Bench更贴近真实的工作环境,包含了动态系统状态、跨应用协调、领域特定知识和长期依赖关系等因素。这使得SaaS-Bench能够更全面地评估Agent在复杂任务中的能力。

关键设计:SaaS-Bench的关键设计包括:1) 选择具有代表性的SaaS应用,例如Google Workspace、Salesforce等;2) 设计具有挑战性的任务,例如创建营销活动、管理客户关系等;3) 使用加权验证检查点来评估任务完成度和部分进度,更细粒度地评估Agent的性能;4) 涵盖纯文本和多模态设置,以评估Agent在不同输入模式下的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强大的LLM-based Agent在SaaS-Bench上的表现也很差,只能完成不到4%的端到端任务。这表明现有Agent在处理真实SaaS环境中的复杂任务时存在显著的局限性,尤其是在规划、状态跟踪、跨应用程序上下文维护和错误恢复方面。该结果突出了SaaS-Bench作为评估和改进Agent在真实工作场景中能力的重要价值。

🎯 应用场景

该研究成果可应用于评估和改进计算机使用Agent在自动化办公、客户关系管理、营销活动管理等领域的应用能力。通过SaaS-Bench,可以更好地了解现有Agent的局限性,并推动Agent在真实工作场景中的应用,提高工作效率和自动化水平。未来,该基准测试可以扩展到更多SaaS应用和领域,并用于训练更强大的Agent。

📄 摘要(原文)

Computer-Using Agents (CUAs) are rapidly extending large language models (LLMs) beyond text-based reasoning toward action execution in more complex environments, such as web browsers and graphical user interfaces (GUIs). However, existing web and GUI agent benchmarks often rely on simplified settings, isolated tasks, or short-horizon interactions, making it difficult to assess capabilities of agents in realistic professional workflows. Software-as-a-Service (SaaS) environments are a natural choice for CUA evaluation, as they host a large share of modern digital work and naturally involve dynamic system states, cross-application coordination, domain-specific knowledge, and long-horizon dependencies. To this end, we introduce SaaS-Bench, a benchmark built on 23 deployable SaaS systems across six professional domains, containing 106 tasks grounded in realistic work scenarios. These tasks require long-horizon execution, cover both text-only and multimodal settings, and are evaluated with weighted verification checkpoints that measure strict task completion and partial progress. Experiments show that representative LLM-based agents struggle on SaaS-Bench, with even the strongest model completing fewer than 4% of tasks end-to-end, exposing limitations in planning, state tracking, cross-application context maintenance, and error recovery. Code are available at https://github.com/UniPat-AI/SaaS-Bench for reproduction.