SCUBA: Salesforce Computer Use Benchmark
作者: Yutong Dai, Krithika Ramakrishnan, Jing Gu, Matthew Fernandez, Yanqi Luo, Viraj Prabhu, Zhenyu Hu, Silvio Savarese, Caiming Xiong, Zeyuan Chen, Ran Xu
分类: cs.AI
发布日期: 2025-09-30
💡 一句话要点
SCUBA:Salesforce平台计算机使用基准测试,评估CRM工作流自动化智能体
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 计算机使用智能体 CRM Salesforce 基准测试 企业软件自动化
📋 核心要点
- 现有方法在企业级CRM系统(如Salesforce)的自动化任务中面临挑战,缺乏真实且细粒度的评估基准。
- SCUBA基准测试通过模拟真实用户场景,提供细粒度的评估指标,旨在推动企业软件自动化智能体的研究。
- 实验表明,现有开源模型在SCUBA上的零样本性能较差,而演示增强可以显著提升任务成功率并降低成本。
📝 摘要(中文)
本文提出了SCUBA,一个旨在评估计算机使用智能体在Salesforce平台客户关系管理(CRM)工作流中表现的基准测试。SCUBA包含300个从真实用户访谈中提取的任务实例,涵盖平台管理员、销售代表和服务代理三种主要角色。这些任务测试了一系列企业关键能力,包括企业软件UI导航、数据操作、工作流自动化、信息检索和故障排除。为了确保真实性,SCUBA在Salesforce沙箱环境中运行,支持并行执行和细粒度的评估指标以捕捉里程碑进度。本文对各种智能体在零样本和演示增强设置下进行了基准测试。结果表明,不同智能体设计范式之间存在巨大的性能差距,开源模型和闭源模型之间也存在差距。在零样本设置中,在OSWorld等相关基准测试中表现良好的开源模型驱动的计算机使用智能体在SCUBA上的成功率低于5%,而基于闭源模型的方法仍然可以达到高达39%的任务成功率。在演示增强设置中,任务成功率可以提高到50%,同时分别降低13%和16%的时间和成本。这些发现突出了企业任务自动化的挑战以及智能体解决方案的前景。通过提供具有可解释评估的真实基准,SCUBA旨在加速构建用于复杂业务软件生态系统的可靠计算机使用智能体的进展。
🔬 方法详解
问题定义:论文旨在解决企业级CRM系统(Salesforce)中的任务自动化问题。现有方法在处理复杂的企业软件UI导航、数据操作、工作流自动化等方面存在不足,缺乏一个能够真实反映实际应用场景并进行细粒度评估的基准测试。现有方法难以有效利用企业软件的复杂功能,并且在零样本学习场景下表现较差。
核心思路:论文的核心思路是构建一个基于真实用户访谈的、在Salesforce沙箱环境中运行的基准测试SCUBA。通过模拟平台管理员、销售代表和服务代理等不同角色的任务,评估智能体在企业软件使用方面的能力。SCUBA的设计目标是提供一个既具有挑战性又具有可解释性的评估平台,从而推动相关研究的进展。
技术框架:SCUBA基准测试包含以下主要组成部分:1) 任务实例:300个从真实用户访谈中提取的任务,涵盖不同的角色和任务类型。2) Salesforce沙箱环境:提供真实的软件运行环境,支持并行执行。3) 评估指标:细粒度的评估指标,用于捕捉任务的里程碑进度和最终结果。4) 基线智能体:一系列基于不同模型的智能体,用于评估SCUBA的难度和有效性。整体流程包括:定义任务 -> 在Salesforce环境中执行任务 -> 使用评估指标评估智能体的表现。
关键创新:SCUBA的关键创新在于其真实性和细粒度。它基于真实用户访谈构建任务,并在真实的Salesforce环境中运行,从而能够更准确地反映实际应用场景。此外,SCUBA提供了细粒度的评估指标,可以捕捉任务的里程碑进度,从而更全面地评估智能体的能力。与现有基准测试相比,SCUBA更专注于企业软件的使用,并提供了更真实的评估环境。
关键设计:SCUBA的关键设计包括:1) 任务的多样性:涵盖不同的角色和任务类型,以评估智能体的通用性。2) 评估指标的细粒度:包括任务成功率、时间成本、操作步骤等,以全面评估智能体的表现。3) Salesforce沙箱环境的真实性:提供与真实环境相似的运行环境,以确保评估结果的可靠性。论文还探索了零样本学习和演示增强等不同的学习范式,并评估了不同模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在零样本设置下,开源模型驱动的智能体在SCUBA上的成功率低于5%,而基于闭源模型的智能体可以达到39%的任务成功率。通过演示增强,任务成功率可以提高到50%,同时分别降低13%和16%的时间和成本。这些结果突出了企业软件自动化的挑战,并表明演示增强是一种有效的解决方案。
🎯 应用场景
SCUBA基准测试可以应用于企业软件自动化、智能助手开发、以及人机协作等领域。通过SCUBA,研究人员可以开发更智能、更可靠的计算机使用智能体,从而提高企业的工作效率,降低运营成本。未来,SCUBA可以扩展到其他企业软件平台,并支持更复杂的任务场景。
📄 摘要(原文)
We introduce SCUBA, a benchmark designed to evaluate computer-use agents on customer relationship management (CRM) workflows within the Salesforce platform. SCUBA contains 300 task instances derived from real user interviews, spanning three primary personas, platform administrators, sales representatives, and service agents. The tasks test a range of enterprise-critical abilities, including Enterprise Software UI navigation, data manipulation, workflow automation, information retrieval, and troubleshooting. To ensure realism, SCUBA operates in Salesforce sandbox environments with support for parallel execution and fine-grained evaluation metrics to capture milestone progress. We benchmark a diverse set of agents under both zero-shot and demonstration-augmented settings. We observed huge performance gaps in different agent design paradigms and gaps between the open-source model and the closed-source model. In the zero-shot setting, open-source model powered computer-use agents that have strong performance on related benchmarks like OSWorld only have less than 5\% success rate on SCUBA, while methods built on closed-source models can still have up to 39% task success rate. In the demonstration-augmented settings, task success rates can be improved to 50\% while simultaneously reducing time and costs by 13% and 16%, respectively. These findings highlight both the challenges of enterprise tasks automation and the promise of agentic solutions. By offering a realistic benchmark with interpretable evaluation, SCUBA aims to accelerate progress in building reliable computer-use agents for complex business software ecosystems.